AI 造芯 Nature 论文遭围攻:谷歌发文硬刚学术抹黑,Jeff Dean 怒怼“你们连模型都没训”

xxn 阅读:85751 2024-11-27 14:00:46 评论:0

最新动态显示,谷歌首席科学家 Jeff Dean 最近就其AlphaChip技术的质疑发表了回应,并强调这是同行竞争的一部分。

谷歌的AlphaChip芯片设计系统登上了Nature杂志,但却遭到了一些怀疑。

Jeff Dean指出,尽管AlphaFold已经斩获诺贝尔奖,但AlphaChip仍然遭到了不公正的批评,并决定通过论文方式进行回击。

在EDA社区中对AlphaChip技术的有效性一直存在质疑,为了回应这些质疑,一些专家发表了相关论文。

参考论文:https://arxiv.org/ pdf/2411.10053

Jeff Dean认为,质疑主要源自一篇未经同行评审的论文,该论文存在严重缺陷。

参考论文:https://arxiv.org/ pdf/2302.11014

该论文声称复制了他们的方法,但未遵循关键步骤,例如缺乏必要的预训练。

该论文减少了计算量,并且未能进行适当的收敛训练,造成了严重的不完整。

这就好比对一个从未见过围棋的AlphaGo进行评估,然后下结论说AlphaGo不擅长围棋。

Jeff Dean还就Synopsys的Igor Markov在2024年11月的CACM杂志上发表的分析文章做了回应。

参考论文:https://cacm.acm.org/ research / reevaluating-googles-reinforcement-learning-for-ic-macro-placement/

Jeff Dean指出,Markov的分析文章存在误导,他在文章中引用了一篇匿名的未发表PDF。

这篇PDF其实也就是Markov所写。

Markov的文章中提出了很多不实指控,这些指控均无据可查,而Nature杂志已经证实了这一点。

Jeff Dean表示对Synopsys与此事扯上关系感到惊讶,他对CACMmag在缺乏证据的情况下发表此类指控感到惊讶。

除了这两篇不完整的、非同行评审的文章外,几乎没有其他技术数据可以支撑这些指控。

谷歌的反击行动

人们在arxiv上热议,其中包括了对这一问题的各种看法。

在Introduction部分,谷歌列举了一份时间表:

2020年4月:发布了Nature论文的arXiv预印本。

2020年8月:TPU v5e内完成了10个AlphaChip布局。

2021年6月:正式发表了Nature文章。

2021年9月:在TPU v5p中流片了15个AlphaChip布局。

2022年1月至2022年7月:AlphaChip开源,并且谷歌另一团队独立复制了Nature论文中的结果。

2022年2月:谷歌内部委员会拒绝了Markov等人观点的发表,原因是数据不支持他们的结论。

2022年10月:在最新的公共TPU Trillium中完成了25个AlphaChip布局。

2023年2月:Cheng等人在arXiv上声称进行了“大规模重新实施”。

2023年6月:Markov发布了他的“元分析”。

2023年9月:Nature启动了第二轮同行评审。

2024年3月:Google Axion处理器采用了7个AlphaChip布局。

2024年4月:Nature完成了审查后发现结果有利的调查。

2024年9月:MediaTek高级副总裁宣布扩展AlphaChip的应用。

2024年11月:Markov重新发表了他的“元分析”。

简而言之,AlphaChip在各方验证下已经得到了充分的实践,并且取得了不俗的成绩。

此外,TPU团队需要对AlphaChip有足够的信任,才会将其应用在生产中,因为AlphaChip表现优异且可靠,优于人类专家。

针对Markov的质疑,Jeff Dean在论文中指出:“Markov的大部分批评都是无端的,他认为我们的方法不应该奏效,因此他坚信我们的方法是错误的,任何相反的观点都被视为欺诈。”

在涉及欺诈的问题上,论文还谈到了内部举报人(whistle-blower),在Markov的分析中描绘了如下:

两位主要作者因对他们研究的连续欺诈指控而发起投诉。在2022年,谷歌解雇了一个内部举报人,并拒绝出版一篇批评Mirhoseini等人的论文,该举报人因加州举报人保护法起诉了谷歌。

而论文所指出的是:“这位内部举报人向谷歌的调查人员承认,他怀疑这项研究是欺诈行为,但是却没有提供任何证据支持这一点。”

针对错误论文的详细回应

缺乏预训练的RL方法

与之前的方法不同,AlphaChip采用的是基于学习的方式,这意味着随着解决更多芯片布局问题的训练,其性能会越来越好且更高效。

这种改进是通过预训练实现的,如下图所示,数据集越大,布局新区块的方法就会更为出色。

相反,Cheng等人没有进行任何预训练,也就是说他们从未见过类似的芯片,必须针对每个测试案例从头开始进行布局。

在Nature论文中,作者详细讨论了预训练的必要性,并且提供了实证证据支持。例如,下图3表明预训练能够提高布局质量和加快收敛速度。

在Ariane RISC-V CPU上,未进行预训练的RL方法需要48个小时才能获得预训练模型6小时内就可以完成的结果。

Nature论文中作者已对主数据表中的结果进行了48小时的预训练,而Cheng等人的预训练为0小时。

Jeff Dean指出:“Cheng试图通过暗示我们的开源存储库不支持预训练,这是不正确的,预训练是在多个样本上运行的方法。”

减少了一个数量级的计算资源

在Cheng等人的论文中,RL方法的RL体验收集器减少了20倍(26个对比512个),GPU数量减少了一半(8个对比16个)。

使用较少的计算资源可能会对性能造成影响,或者需要更长时间来实现相同的成果。

正如下图4所示,通过在大量GPU上进行训练,可以加快收敛速度并获得更佳的结果品质。

RL方法未能训练到收敛

在模型的训练过程中,损失通常会减少并最终稳定,这被称为“收敛”,表示模型已经掌握了其所需执行的任务。

通常情况下,训练到收敛是机器学习的标准做法。然而,正如下图所示,Cheng等人没有训练任何一个模型收敛。

总结如下所示。除了BlackParrotNG45和Ariane-NG45的两种情况外,其他四种具有收敛图的块(Ariane-GF12、MemPool-NG45、BlackParrot-GF12和MemPool-GF12)都是在较低步数时(分别为350k、250k、160k和250k步)完成的收敛训练。

如果按照标准的机器学习做法,可能会提高这些测试案例的性能。

缺乏代表性,不可重现

在Nature论文中,作者报告的张量处理单元(TPU)块的结果使用了低于7nm的技术节点,这是现代芯片的标准制程。

相比之下,Cheng等人提出的结果是基于更旧的技术节点(45nm和12nm)得出的,从物理设计的角度来看,存在明显差异。

在低于10nm的情况下,通常采用多图样技术,会导致在低密度下出现布线拥塞问题。因此,在较旧的技术节点上,调整奖励函数以应对拥塞或密度成分可能会对AlphaChip有益。

AlphaChip的所有工作都是基于7nm、5nm及更新的工艺进行的,作者并未专注于将其应用于旧工艺的设计。

此外,Cheng等人还未能或不愿分享复制主数据表结果所需的综合网表。

参考资料:

  • https://x.com/JeffDean/status/1858540085794451906

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容