外国高三学生创建 AI 评测网站：让模型在《我的世界》里“一决高下”

xxn 阅读：41628 2025-03-22 16:01:00 评论：0

IT之家 3 月 22 日报道指出，由于传统 AI 基准测试方法的局限性，AI 开发者正在尝试创新的评估方式。其中一种独特的方法是利用微软沙盒建造游戏《我的世界》。

据外媒 TechCrunch 报道，高三学生阿迪・辛格（Adi Singh）创建了专为 AI 评测而设的网站Minecraft Benchmark（MC-Bench）。这个平台允许 AI 模型在《我的世界》中展开竞赛，建造基于相同提示的作品。用户们可以投票选择他们认为最出色的作品，然后结果公布显示哪个 AI 生成了获胜作品。

《我的世界》之所以被选择，并不在于游戏本身，而是因其广为人知。即使没有玩过这款游戏，人们也能辨别哪个方块状的虚拟作品更逼真。一位相关人士表示：“《我的世界》有助于更直观地观察 AI 的发展进程，大家对这款游戏的风格和视觉效果都颇为熟悉。”

目前，MC-Bench 共有 8 位志愿者。IT之家从 MC-Bench 网站得知：Anthropic、谷歌、OpenAI 和阿里巴巴为该项目提供了 AI 计算资源支持，尽管未直接参与开发。

有人表示：“目前，我们的测试还相对基础，主要用来观察 AI 从 GPT-3 时代至今的进步。但未来，我们可能会扩展至更复杂的目标导向任务和长期规划的评估，游戏可能是测试 AI 推理能力的理想方式，因为相对于现实世界，游戏更安全、可控。”

严格来说，MC-Bench 被视为编程基准测试，因为 AI 必须编写代码来创建建筑，例如“雪人”或“热带风情的海滨小屋”。

与分析代码不同，大多数用户更愿意通过作品本身来评价 AI 的表现。至于这些测试结果是否真正能反映出 AI 的实际应用价值，还有待商榷。但有人认为，这些数据仍具有重要的参考价值。他表示：“MC-Bench 的排行榜与我的实际体验高度一致，这在许多传统文本基准测试中较为罕见。也许，这可以帮助 AI 开发者判断自己的发展方向是否正确。”

广告声明：本文包含对外链接，旨在提供更多信息并节省您的时间，点击仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。