AI 造芯 Nature 论文遭围攻：谷歌发文硬刚学术抹黑，Jeff Dean 怒怼“你们连模型都没训”

xxn 阅读：85751 2024-11-27 14:00:46 评论：0

最新动态显示，谷歌首席科学家 Jeff Dean 最近就其AlphaChip技术的质疑发表了回应，并强调这是同行竞争的一部分。

谷歌的AlphaChip芯片设计系统登上了Nature杂志，但却遭到了一些怀疑。

Jeff Dean指出，尽管AlphaFold已经斩获诺贝尔奖，但AlphaChip仍然遭到了不公正的批评，并决定通过论文方式进行回击。

在EDA社区中对AlphaChip技术的有效性一直存在质疑，为了回应这些质疑，一些专家发表了相关论文。

参考论文：https://arxiv.org/ pdf/2411.10053

Jeff Dean认为，质疑主要源自一篇未经同行评审的论文，该论文存在严重缺陷。

参考论文：https://arxiv.org/ pdf/2302.11014

该论文声称复制了他们的方法，但未遵循关键步骤，例如缺乏必要的预训练。
该论文减少了计算量，并且未能进行适当的收敛训练，造成了严重的不完整。
这就好比对一个从未见过围棋的AlphaGo进行评估，然后下结论说AlphaGo不擅长围棋。

Jeff Dean还就Synopsys的Igor Markov在2024年11月的CACM杂志上发表的分析文章做了回应。

参考论文：https://cacm.acm.org/ research / reevaluating-googles-reinforcement-learning-for-ic-macro-placement/

Jeff Dean指出，Markov的分析文章存在误导，他在文章中引用了一篇匿名的未发表PDF。

这篇PDF其实也就是Markov所写。

Markov的文章中提出了很多不实指控，这些指控均无据可查，而Nature杂志已经证实了这一点。
Jeff Dean表示对Synopsys与此事扯上关系感到惊讶，他对CACMmag在缺乏证据的情况下发表此类指控感到惊讶。
除了这两篇不完整的、非同行评审的文章外，几乎没有其他技术数据可以支撑这些指控。

谷歌的反击行动

人们在arxiv上热议，其中包括了对这一问题的各种看法。

在Introduction部分，谷歌列举了一份时间表：

2020年4月：发布了Nature论文的arXiv预印本。
2020年8月：TPU v5e内完成了10个AlphaChip布局。
2021年6月：正式发表了Nature文章。
2021年9月：在TPU v5p中流片了15个AlphaChip布局。
2022年1月至2022年7月：AlphaChip开源，并且谷歌另一团队独立复制了Nature论文中的结果。
2022年2月：谷歌内部委员会拒绝了Markov等人观点的发表，原因是数据不支持他们的结论。
2022年10月：在最新的公共TPU Trillium中完成了25个AlphaChip布局。
2023年2月：Cheng等人在arXiv上声称进行了“大规模重新实施”。
2023年6月：Markov发布了他的“元分析”。
2023年9月：Nature启动了第二轮同行评审。
2024年3月：Google Axion处理器采用了7个AlphaChip布局。
2024年4月：Nature完成了审查后发现结果有利的调查。
2024年9月：MediaTek高级副总裁宣布扩展AlphaChip的应用。
2024年11月：Markov重新发表了他的“元分析”。

简而言之，AlphaChip在各方验证下已经得到了充分的实践，并且取得了不俗的成绩。

此外，TPU团队需要对AlphaChip有足够的信任，才会将其应用在生产中，因为AlphaChip表现优异且可靠，优于人类专家。

针对Markov的质疑，Jeff Dean在论文中指出：“Markov的大部分批评都是无端的，他认为我们的方法不应该奏效，因此他坚信我们的方法是错误的，任何相反的观点都被视为欺诈。”

在涉及欺诈的问题上，论文还谈到了内部举报人（whistle-blower），在Markov的分析中描绘了如下：

两位主要作者因对他们研究的连续欺诈指控而发起投诉。在2022年，谷歌解雇了一个内部举报人，并拒绝出版一篇批评Mirhoseini等人的论文，该举报人因加州举报人保护法起诉了谷歌。

而论文所指出的是：“这位内部举报人向谷歌的调查人员承认，他怀疑这项研究是欺诈行为，但是却没有提供任何证据支持这一点。”

针对错误论文的详细回应

缺乏预训练的RL方法

与之前的方法不同，AlphaChip采用的是基于学习的方式，这意味着随着解决更多芯片布局问题的训练，其性能会越来越好且更高效。

这种改进是通过预训练实现的，如下图所示，数据集越大，布局新区块的方法就会更为出色。

相反，Cheng等人没有进行任何预训练，也就是说他们从未见过类似的芯片，必须针对每个测试案例从头开始进行布局。

在Nature论文中，作者详细讨论了预训练的必要性，并且提供了实证证据支持。例如，下图3表明预训练能够提高布局质量和加快收敛速度。

在Ariane RISC-V CPU上，未进行预训练的RL方法需要48个小时才能获得预训练模型6小时内就可以完成的结果。

Nature论文中作者已对主数据表中的结果进行了48小时的预训练，而Cheng等人的预训练为0小时。

Jeff Dean指出：“Cheng试图通过暗示我们的开源存储库不支持预训练，这是不正确的，预训练是在多个样本上运行的方法。”

减少了一个数量级的计算资源

在Cheng等人的论文中，RL方法的RL体验收集器减少了20倍（26个对比512个），GPU数量减少了一半（8个对比16个）。

使用较少的计算资源可能会对性能造成影响，或者需要更长时间来实现相同的成果。

正如下图4所示，通过在大量GPU上进行训练，可以加快收敛速度并获得更佳的结果品质。

RL方法未能训练到收敛

在模型的训练过程中，损失通常会减少并最终稳定，这被称为“收敛”，表示模型已经掌握了其所需执行的任务。

通常情况下，训练到收敛是机器学习的标准做法。然而，正如下图所示，Cheng等人没有训练任何一个模型收敛。

总结如下所示。除了BlackParrotNG45和Ariane-NG45的两种情况外，其他四种具有收敛图的块（Ariane-GF12、MemPool-NG45、BlackParrot-GF12和MemPool-GF12）都是在较低步数时（分别为350k、250k、160k和250k步）完成的收敛训练。

如果按照标准的机器学习做法，可能会提高这些测试案例的性能。

缺乏代表性，不可重现

在Nature论文中，作者报告的张量处理单元（TPU）块的结果使用了低于7nm的技术节点，这是现代芯片的标准制程。

相比之下，Cheng等人提出的结果是基于更旧的技术节点（45nm和12nm）得出的，从物理设计的角度来看，存在明显差异。

在低于10nm的情况下，通常采用多图样技术，会导致在低密度下出现布线拥塞问题。因此，在较旧的技术节点上，调整奖励函数以应对拥塞或密度成分可能会对AlphaChip有益。

AlphaChip的所有工作都是基于7nm、5nm及更新的工艺进行的，作者并未专注于将其应用于旧工艺的设计。

此外，Cheng等人还未能或不愿分享复制主数据表结果所需的综合网表。

参考资料：

https://x.com/JeffDean/status/1858540085794451906

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。