马斯克:现实世界中用于训练 AI 模型的数据已经所剩无几
IT之家 1 月 9 日报道,依据 TechCrunch 的消息,马斯克与众多人工智能领域的专家共同指出,现实世界中,用于训练人工智能模型的数据几乎已被耗尽。
在与 Stagwell 董事会主席马克・佩恩的在线对话中,马斯克提到:“我们现阶段基本上已经消耗了所有人类知识的积累…… 作为AI训练的数据,现实世界的数据几乎用尽。这种情况基本是在去年开始的。”
马斯克的这一言论与前 OpenAI 首席科学家伊利亚・苏茨克弗在去年 12 月 NeurIPS 会议上的看法颇为一致。苏茨克弗曾表示,AI行业已经面临“数据峰值”,并预测未来缺乏训练数据将迫使AI模型的开发模式发生变化。
马斯克认为,合成数据(即让人工智能模型主动生成的数据)是解决这一问题的途径。“补充现实数据的唯一方式是通过合成数据,使得AI 自行生成训练数据。AI将通过自我评估并在这一自我学习过程中逐步优化。”
现在,诸多科技公司如微软、Meta、OpenAI和Anthropic等,已开始运用合成数据来提升他们主要的AI模型。根据Gartner的预测,到2024年,用于人工智能和数据分析的 60% 数据料将通过合成方式产生。
运用合成数据的显著好处之一是成本的降低。人工智能初创公司Writer表示,其Palmyra X 004模型几乎完全依赖合成数据进行开发,开发成本 仅为70万美元,而规模相似的OpenAI模型其开发成本约为 460万美元。
然而,合成数据也伴随着一定的风险。研究显示,合成数据可能导致模型性能下降,其输出结果不仅缺乏创新性,且可能更加偏颇,从而严重影响模型的实际功能。由于模型通过自我生成的合成数据进行训练,若这些数据带有偏见或局限性,那么最终的输出结果也会受到这些因素的干扰。
广告声明:文中包含的外部链接(不局限于超链接、二维码、口令等形式)旨在传递更全面的信息,节省信息筛选的时间,最终结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。