外国高三学生创建 AI 评测网站:让模型在《我的世界》里“一决高下”
IT之家 3 月 22 日报道指出,由于传统 AI 基准测试方法的局限性,AI 开发者正在尝试创新的评估方式。其中一种独特的方法是利用微软沙盒建造游戏《我的世界》。
据外媒 TechCrunch 报道,高三学生阿迪・辛格(Adi Singh)创建了专为 AI 评测而设的网站Minecraft Benchmark(MC-Bench)。这个平台允许 AI 模型在《我的世界》中展开竞赛,建造基于相同提示的作品。用户们可以投票选择他们认为最出色的作品,然后结果公布显示哪个 AI 生成了获胜作品。
《我的世界》之所以被选择,并不在于游戏本身,而是因其广为人知。即使没有玩过这款游戏,人们也能辨别哪个方块状的虚拟作品更逼真。一位相关人士表示:“《我的世界》有助于更直观地观察 AI 的发展进程,大家对这款游戏的风格和视觉效果都颇为熟悉。”
目前,MC-Bench 共有 8 位志愿者。IT之家从 MC-Bench 网站得知:Anthropic、谷歌、OpenAI 和阿里巴巴为该项目提供了 AI 计算资源支持,尽管未直接参与开发。
有人表示:“目前,我们的测试还相对基础,主要用来观察 AI 从 GPT-3 时代至今的进步。但未来,我们可能会扩展至更复杂的目标导向任务和长期规划的评估,游戏可能是测试 AI 推理能力的理想方式,因为相对于现实世界,游戏更安全、可控。”
严格来说,MC-Bench 被视为编程基准测试,因为 AI 必须编写代码来创建建筑,例如“雪人”或“热带风情的海滨小屋”。
与分析代码不同,大多数用户更愿意通过作品本身来评价 AI 的表现。至于这些测试结果是否真正能反映出 AI 的实际应用价值,还有待商榷。但有人认为,这些数据仍具有重要的参考价值。他表示:“MC-Bench 的排行榜与我的实际体验高度一致,这在许多传统文本基准测试中较为罕见。也许,这可以帮助 AI 开发者判断自己的发展方向是否正确。”
广告声明:本文包含对外链接,旨在提供更多信息并节省您的时间,点击仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。