最新研究揭示 AI 数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见

xxn 阅读:45976 2025-01-30 16:02:43 评论:0

与 LLM 和 Agent 领域的迅速发展相比,数据收集的规范化却显得滞后。由逾50名研究者组成的数据溯源倡议(DPI)旨在探讨一个重要问题:用于 AI 训练的数据究竟源于何处?

“AI 依赖数据”这句话已成为业内的共识。

现代算法的训练需要庞大的数据量,模型的输出和行为受到所输入数据的重大影响。然而,AI 开发者和研究人员对这些数据来源的认识并不充分。

与复杂的模型开发过程相比,人工智能的数据收集实践仍相对不成熟,许多数据集并未提供清晰的内容及其源头信息。

成立于2024年的数据溯源倡议旨在解决这一问题——确保 AI 模型所需数据集的透明来源。这个志愿者团队由全球50多名来自学术与工业界的研究人员组成。

他们已审核近4000个公共数据集,涵盖来自67个国家的700多个组织、600多种语言,以及大约800种数据来源,时间范围长达三十年。

DPI 的研究结果揭示了一个令人担忧的趋势:AI 领域的数据集存在“垄断”现象,数据控制权正在日益集中于少数科技巨头手中。

LLM 数据来源的变迁

回顾2010年代初期,数据集的组成较为多样,包含百科全书、网络资料、议会记录、财报电话、气象数据等多种来源。

参与该项目的MIT研究员 Shayne Longpre指出,当时的数据集是为特定任务构建的,需要从不同的资源中进行分类和整理。

2017年,Transformer的出现标志着“大模型”时代的来临,数据集和模型参数越大,性能便越佳,尽管Scaling Law的概念要几年后才被提出。

与此同时,AI 数据集依然来源于多样的渠道,包括网络内容、议会记录、财报电话等,而这些数据集是为了特定任务而精心采集和整理的。

自2018年以来,网络成为音频、图片和视频的主要数据源。目前,大多数 AI 数据集的构建依赖于网络无差别爬取数据,抓取方式与精心组织的数据集之间的间隙显著且持续扩大。

Longpre表示,互联网的规模与数据多样性对基底模型的能力至关重要。对数据规模的追求也导致了合成数据的广泛应用。

除了语言模型,近年来还见证了多模态生成 AI 的兴起,比如多种图像和视频生成模型。这些模型的需求同样是大量数据。

如下一表所示,视频模型的语音与图像数据集中的70%以上皆来源于单一平台——YouTube。

对于拥有 YouTube 的谷歌及其母公司 Alphabet,这无疑是一个巨大的优势。尽管文本数据分散于互联网的多样平台,但视频数据却集中在了同一家公司手中。

AI Now Institute 的联合执行董事 Sarah Myers West指出,谷歌正在开发自身的 AI 模型(如 Gemini),这种巨大的信息优势引发了关于数据共享的担忧:谷歌将如何与竞争对手分享这些数据。

更深层次的问题是,若大部分AI 数据集反映了以利润为驱动的科技巨头的意图,它们将如何潜移默化地重塑其它领域的基础设施。

DPI 的另一位成员 Sara Hooker则从偏见和失真的角度提出了她的担忧:单一数据源可能带来的问题。

博主在上传视频到 YouTube 时常会考虑特定的目标受众,视频内容也往往旨在实现某种效果。这是否意味着这些视频能够全面捕捉人性及各类生活方式和行为模式?

举例来说,如果你是一个对中国感兴趣的外国人,是否通过影视作品和短视频可以真正了解中国人的性格及行为方式呢?

被忽视的数据集

尽管许多科技公司发布了部分模型的代码或权重,但几乎没有公司公开训练的数据集。这背后的原因包括保护竞争优势,同时由于数据集的包装与分发过程复杂不透明,他们可能连数据的来源都难以阐明。

此外,关于数据的使用与分享限制,发布模型的公司通常无法提供完整的信息。DPI 的研究者发现,数据集常常带有限制性许可或条款,限制其商业使用等。

数据显示,文本、语音与视频数据集中,分别有25%、33%和32%的数据明确规定了非商业许可,这意味着可用于学术或个人用途,但无法用于商业盈利。

数据集之间集成性不足,使得开发者在选择数据时面临困难,几乎无法保证模型在训练过程中未使用受到版权保护的数据。

近期,OpenAI 和 Google 等公司与主要出版商、Reddit 等论坛及社交媒体平台达成了独家数据共享协议,这实际上成为了他们集中数据权力的又一途径。

这种数据共享趋势有利于 AI 领域的头部企业,他们拥有足够的资源进行数据交易,然而却牺牲了学术界、非盈利组织和小型企业的利益。

显然,这些排他性的数据共享协议将在互联网生态中划分出不同区域,形成一波前所未有的“非对称访问”浪潮。

西方国家与其他地区的对比

此外,该研究还确认了用于训练 AI 模型的数据严重偏向西方。数据显示,逾90%的数据集来自北美和欧洲,而非洲的数据占比甚至不足4%。

Hugging Face 的首席伦理学家 Giada Pistilli 提到,英语主导训练数据的原因之一是,互联网中90%以上的内容是英语。此外,合成数据时考虑其他语言及文化需进行更多的努力,以及开发者需具备相关意识。

通过多模态模型输出,可以明显看到这些数据如何以西方文化为中心。例如,如果要求 AI 模型生成某种婚礼的景象与声音,其结果可能只会反映西式婚礼,因为训练数据的局限性。

这些数据集反映出人类社会的偏见,经过这些数据训练的模型可能加剧偏见,促使 AI 模型在无意中推广以美国为中心的世界观,而忽视其他语言和文化的存在。

参考资料:

  • https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/

广告声明:文中所含外部链接(包括但不限于超链接、二维码、口令等形式)旨在提供更多信息,节省阅读时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容