近日,2025全球开发者先锋大会“语料筑基智生时代”主题论坛在上海举办。

  活动上,为进一步促进高质量语料数据建设,活动承办方库帕思在上海市经济和信息化委的指导下,以普惠、链接、创新的态度,携手首批103家企业、科研机构和专家学者,联合发起成立上海市人工智能行业协会语料工作委员会,中文在线成为首批加入企业之一。

  《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》明确提出,要构建语料数据资源共建共享机制。语料数据的建设与完善直接关系到人工智能模型的训练效果和应用场景的通用性,上海市人工智能行业协会语料工作委员会将围绕高质量语料建设,通过优化语料平台与各垂类应用领域链接机制,促进语料方、模型方、应用场景方三方合作模式跑通落地,从而构建高质量、具备应用价值的语料生态。

  中文在线深耕数字文化领域二十余年,积累了海量高质量数字内容。基于自研大模型的数据需求,公司持续整合多种类型的优质数据,涵盖文字、音频、图片、视频等多模态内容。目前,中文在线已拥有300万册中英文出版物、300万余部原创文学作品、20万+小时有声书及干音、百万级视频数据,以及亿级图片、题库、期刊、行业问答、中外文平行语料等近40种文字和多模态语料及成品语料集。