中文互联网语料 AI 资源平台发布：27 个数据集、总量 2.7T

xxn 阅读：94300 2025-01-11 08:00:25 评论：0

IT之家 1 月 11 日最新消息指出，中国网络空间安全协会在 1 月 9 日宣布推出中文互联网语料资源平台，支持按照行业领域、内容模态、体量规模等多种标签分类，以方便用户下载和使用。

据悉，在中央网信办的指导下，中国网络空间安全协会与国家互联网应急中心合作，在之前发布的中文互联网基础语料 1.0 基础之上，通过专委会建立的语料共建共享机制，整合了一批新的高质量可信数据。这些数据经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理步骤，形成并向社会发布中文互联网基础语料 2.0，总规模达 120GB，包含数据量达到 3800 万条。

IT之家提示：截至目前，该平台已经整合了 27 个语料数据集，总数据量约为 2.7T，主要分为三类：

一是由中国网络空间安全协会和国家互联网应急中心等机构建立的中文互联网基础语料；
二是由人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料；
三是由中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位贡献的高质量中文基础语料样本。

用户可登录中国网络空间安全协会官网（https://www.cybersac.cn/ newhome），点击“中文互联网语料资源平台”链接，按照注册、认证等流程完成后，即可下载相关语料。

网安协会人工智能安全治理专委会负责人表示，数据是发展人工智能的基础关键资源。而中文互联网基础语料 2.0 则代表着各界共同努力构建高质量中文语料资源的一个重要里程碑。专委会将持续加强中文互联网基础语料的开发，为人工智能技术创新和产业发展提供有力支持和保障。

广告声明：文内包含对外跳转链接（包括但不限于超链接、二维码、口令等形式），旨在传达更多相关信息，为节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。