LeCun 最新访谈对 DeepSeek 一顿猛夸,还谈了 AI 发展需理解物理世界
LeCun 在最近的访谈中,对 DeepSeek 的表现给予了极高的评价。
他指出,DeepSeek 是一项非凡的成就,其开源模式不仅使成果的创造者受益,更使全世界都能从中获得好处。
LeCun 还强调,金融市场对 DeepSeek 的反应存在误解,有人认为“我们现在可以以更低的成本训练系统,因此不再需要大量计算机”,这种观点是一个误区。
大部分基础设施投资实际上是用于运行模型而非训练模型。
他也提到了对OpenAI“星际之门”项目的看法。OpenAI 宣布与软银和甲骨文成立合资企业,未来 4 年内将投入5000 亿美元。但 LeCun 认为这一项目不会带来革命性的变化。
他表示,这一投资与微软和 Meta 的投资水平是相当的,并没有本质区别。
此外,LeCun 强调,现有的 AI 系统在许多方面仍显“愚蠢”,仅依靠大型语言模型的能力是远远不够的,AI 的发展需要理解复杂的物理世界。
LeCun 的一些直言不讳的看法让网民感到震惊:
他认为目前的 AI 系统缺乏智能,且在其构建过程中将“情感”概念强加在其上,这样的观点显得非常奇特。
当然,也有不少研究人员对于 LeCun 的看法表示赞同。
量子位对部分问题进行了翻译整合,力求在不改变原意的前提下归纳出精华。
访谈问题整理
关于 AI 是否会拥有类似人类情感
Q:我们推动 AI 发展,以使其具有人类相似的能力。那么,现在是否有可能让 AI 表现出类似人类愤怒等情感?
LeCun:我认为这不现实。
目前的 AI 系统在许多方面仍显得极其“愚蠢”,我们之所以会认为它们聪明,主要是因为它们能有效处理语言,但它们并不具备真正的智慧。
它们无法理解物理世界,并没有与人类相同的长时记忆,亦无法进行真正的推理或规划,这些都是智能的基本特征。
因此,我与我的同事们在 FAIR 和纽约大学的研究方向,就是设计一种新型的 AI 系统,仍然基于深度学习。
这种系统将能够理解物理现实,具备持久的记忆,并在推理与规划方面有所进展。一旦这样的系统获得成功,它们很可能会具备某种形式的情感,可能会经历恐惧、兴奋或失落等感受,这与对结果的预期有关。
它们将依据我们的目标运作,并尝试确定可以采取哪些行动来实现该目标。如果它们能够预测到目标的达成,就会在某种程度上“感到高兴”;反之,如果它们认为目标无法实现,它们就会“显得不快”。
理想情况下,系统将能够预测自己可能采取的行动及其后果,因此在某种程度上具备情感。
然而,我们不会在其程序中设置诸如愤怒或嫉妒等情感。
但意识是另一回事,至今我们不完全清楚其定义为何,目前没有可量化或可测量的方法来判断某物是否具备意识。
举例来说,我们普遍认为猿类是有意识的,可能大象也是,但狗或老鼠呢?意识的界限在哪儿?
由于缺乏对意识的准确定义,我们无法下结论。
有关机器学习的三种模式
Q:你曾提到机器学习的不足,现在情况有改善吗?
LeCun:我们正致力于寻找新的构建机器学习系统的方法,希望其学习效率与人类和动物相媲美,但当前情况依然不理想。
过去几十年机器学习经历了三种主要模式的发展。
第一种叫监督学习,这是最经典的形式。
训练监督学习系统的方法例如,向系统展示一张桌子的图片,并告诉它“这是桌子”,便是监督学习,这告知了系统正确的输出。
若它输出的结果不是“桌子”,那么它需要调整其参数,即内部结构,使输出更接近预期结果。
随着不断使用大量的桌子、椅子、汽车、猫、狗等实例进行训练,这个系统最终可以识别出每个训练图像,并具备识别未见图像的能力,这就是泛化能力。
第二种模式被称为强化学习,更接近动物和人类的学习方式。
在强化学习中,系统并不会被告知正确答案,只会被反馈其产生的答案的好坏。这也解释了部分人类和动物的学习方式。例如,在骑自行车时最初并不知如何骑车,当摔倒后就明白自己出错了,进而调整策略,最终学会骑车。
但实践表明,强化学习的效率很低。
在下国际象棋、围棋或扑克等领域,强化学习表现良好,可以通过自主对战数百万局进行微调。
然而在现实世界中,比如自动驾驶汽车的训练,不能单靠强化学习,这样会造成诸多事故。如果训练机器人抓取物体,强化学习只是一部分解决方案,但无法依靠单一的强化学习进行训练。
因此,第三种学习形式为自监督学习。
正是自监督学习推动了自然语言理解及聊天机器人的进展。在此模式中,并不是为完成特定任务而训练系统,而是让其捕捉输入的结构。
例如,在文本处理上,你将文本进行某种破坏,例如删除部分单词,训练系统去预测这些缺失的单词。
这种特殊情况是,通过删除一段文本的最后一个单词来训练系统,使其预测出缺失的部分。这便是训练大型语言模型及聊天机器人的方法。
尽管技术细节有所不同,但基本原理不变。这就是自监督学习。你不是为某个特定任务而训练,而是教它理解输入内容的内在依赖关系。
自监督学习的成功成果令人瞩目,最终生成的系统似乎真正理解了语言。当通过监督或强化学习进一步细化这些系统后,它们能够正确回答问题。
这是目前行业研究的主要方向,但要让系统理解物理世界,则该模型不再适用。
探讨 AI 系统的缺失要素
LeCun:理解物理世界比理解语言要难得多,语言虽然是人类展现智能的重要方面,但实际上它相对简单。
语言之所以简单,是因为它离散化,由一系列的离散符号组成。
字典中可能用到的单词数量是有限的,因此,尽管训练系统精确预测下一个词是不可能的,但可以估算字典中每个词在特定位置出现的概率,这样便能应对预测中的不确定性。
然而,你却无法训练一个系统去预测视频中的表现。
尽管许多尝试过,我自身也让这成为目标已经20年,如果能够训练一个系统去预测视频中将发生的事件,那么该系统就会潜移默化地理解世界的底层结构,包括直观的物理知识,以及动物和人类在婴儿时期所学习到的所有物理认知。
比如说,当我拿起一个物体并松手时,它会掉落,重力使物体朝向地面。人类婴儿大约在9个月大时就明白了这一点。
这是一个复杂的问题,猫或狗通常可以在几个月内掌握重力,他们能够根据直观的物理知识进行复杂动作的规划。可是现在我们尚未找到方法将这一点通过计算机重现。
这是所谓的“莫拉维克悖论”。
汉斯・莫拉维克是一位机器人专家,他质疑,为什么我们能让计算机下棋、解决数学问题,但却无法让其完成如动物般控制物体和跳跃等物理动作?
这是悖论的例证,即离散物体和符号的处理相对容易,但复杂的现实世界却是一个巨大的挑战,某种技术在一种情况下可行,另一种情况下却无法兑现。
若想更好理解,将我们通过感官(如视觉或触觉)获取的信息量与语言所带来的信息量进行比较,前者显然庞大得多。
这或许可以解释,为何我们有强大的语言模型和聊天机器人,能够通过资格考试、解决数学题、写出流畅的文章,但至今未能研发出具备猫狗能力的家用机器人,也未能实现完全自动驾驶的车辆,更不要说能够像 17 岁的孩子那样,只需20小时的练习便能学习驾驶的自动驾驶汽车。
显然,我们尚缺乏一些基本要素,而这一要素便是如何训练系统去理解复杂的感官输入,例如视觉。
若想构建与人类和动物智力相当的机器,具备常识与潜在的意识,并有能力应对复杂的现实情境,那么突破此难关势在必行。
一款典型的大语言模型的信息量约为 10 的 14 次方字节,即 1 后跟 14 个零,基本相当于互联网上所有公开文本的总和,人们若想阅读完这内容将花费数十万年之久,信息量庞大。
若把大语言模型所处理的信息量与幼儿在生命前四年通过视觉系统获取的信息量相比,恰好相当。一个幼儿清醒的总时长约为 16000 小时,信息以约 2MB/s 的速度进入脑中,最终达到约 10 的 14 次方字节。
换言之,幼儿在头四年所接收的信息量大致与最大的语言模型相当。
这清晰地表明,单靠文本训练无法实现人类水平的 AI,必须让系统理解真实世界,而这在现实中又显得非常复杂。
Q:你在 LinkedIn 和 Facebook 上将 AI 与熵联系到了一起,这两个概念有何关联?你所写的内容让人难以理解,可以简单解释一下吗?
LeCun:这是我一直关注的问题,它源自计算机科学、物理学、信息论和其他许多领域,核心是如何量化信息,即一条消息中包含多少信息。
我曾提出的观点是,一条消息内的信息量并不是一个绝对值,而是取决于解读这条消息的人。你从传感器、语言或其他信息中提取的内容,关键在于你的解读方式。
试图以绝对标准来衡量信息,可能会存在误区。针对每种信息的度量都是相对的,这取决于解读信息的特定方式。因此这是我想表达的要点。
这种观点具有深远的影响。因为若没有一种绝对的方法来衡量信息,意味着物理学中的许多概念缺乏如熵那样的客观定义,熵只是对我们对一个物理系统状态未知程度的评估,当然这也取决于你对该系统的了解。
因此,我始终在努力寻找合适的方法来定义熵、复杂性或信息内容。
Q:难道你不认为用于训练 AI 模型的全球数据库已经达到了极限吗?2000年时我们数字化了 25% 的数据,而现在我们已经完成了100%。
LeCun:不,仍然有大量文本信息尚未数字化。许多发达地区的数据虽已数字化,但大部分并非公开可用。
例如,大量的医疗数据并没有公开,还有很多文化资产及各地区的历史数据可能无法以数字形式获得,即便有也是扫描文档的方式存在,因此并非可操作文本。
因此,我认为这一说法是不准确的,尚有大量数据未被有效利用。
关于 o1 式推理模型的讨论
Q:那么 o1 这类自由推理和抽象思维模型呢?我们能否期待来自您的实验室的这类成果?
LeCun:从观察中精心构建抽象表征是深度学习的核心。学习表征是深度学习的本质。
实际上,深度学习领域的一大会议是国际学习表征会议(ICLR),我是该会议的共同创办者之一。这显示出学习抽象表征的重要性,对于 AI 的发展,尤其是深度学习至关重要。
现在,若想让系统能够进行推理,它需具备另一种特性。推理或规划的概念自 20 世纪 50 年起便存在于 AI 领域,经典模式在于找到解决方案的方法。
例如,如果我给你一系列城市,然后让你找出经过这些城市的最短路线,你会考虑从最近的城市出发,以使行程尽可能最短。
现在,这里存在一个可能路径的集合,指所有城市排列的组合,这是个相当庞大的空间,像 GPS 算法在搜索路径时,也是从所有可能的路径中寻求最短的。
也就是说,你会在一个可能的解决方案集合内进行搜索,以找到满足期望目标的解决方案。
而当前的系统,比如现存的大语言模型,它们的搜索方式相对原始,它们在所谓的 token 空间内进行搜索,意味着它们随机生成大量不同的 token 序列,再由神经元分辨出最佳序列,最后实现输出。
这种方式消耗资源巨大,因为必须产生大量的输出,进而选择最优的方案。而且这并不是我们人类思考的方式。我们不会生成无数行为然后观察结果,再决定哪个是最佳,而是直接在我们的心理状态中进行推理。
例如,如果我让你想象一个立方体并围绕其轴旋转90度,你会发觉这一过程在你心中完成,你会知道旋转后的立方体在同一角度下与原来依然相似。
因为对于立方体而言,旋转90度,若从同样视角观察,其外形不会有变化。
Q:这样看来自由推理会是某种错觉吗?
LeCun:你实际是在内心的思维状态下进行推理,而并不是在输出行为或行为空间中进行推理。
换言之,无论输出状态如何,你是在一个抽象的空间中进行推理。
因此我们都具备世界的心理模型,这些模型让我们能够预测世界的变化,操控现实并提前预见我们行为的结果。当我们可以预测行为后果时,例如立方体转动90度,我们能规划出一系列动作为实现特定目标。
所以,每当我们需要自觉完成一项任务时,都会专注于思考达成此任务的策略。
几乎我们日常生活中被认真执行的每个任务,都需要进行规划,且多数情况下都涉及到分层规划。
例如,我们在决定从纽约返回华沙时,知道必须先到达机场乘坐飞机。于是,便产生了一个子目标:到达机场,这体现了分层规划的核心。
有时,我们会确定一个具体目标,不需要进一步规划,比如从座椅上站起,这已经是个惯例,你能直接完成这项动作,且具备实现所需能力。
因此,分层规划显得尤为必要,智能系统也需进行层次化的规划,这一点至关重要。目前我们仍未能实现这一点,未来几年将是一个重大挑战。
DeepSeek 与 OpenAI 星际之门的探讨
Q:深受瞩目的模型 DeepSeek 性能优于 OpenAI 一些模型,难道不意味着一切都已经注定吗?你对此有何见解?
LeCun:需要非常清楚地说明的是,当研究成果被揭示,其技术背景或相关白皮书、报告等同时发布,并且代码是开源的,意味着全世界都能获得相关利益。
请注意,不仅是成果的创造者受益,尽管创造者会获得帮助与认可。但全球都能从这些成果中受益,这就是开放源代码研究的魅力。
个人以及 Meta 一直支持开放研究和开源的理念。每当有一个从事开源研究的机构取得成功,整个开源社区都会受益。
有人可能视其为竞争关系,实则更像是合作。
问题在于,我们是否希望这种合作为全球性质,我的回答是肯定的,因为好创意能够来源于世界任何地方。单凭一家公司无法垄断好的创意,因此开放合作能加速该领域的发展。
行业内一些先前实践开放研究并取得成功的例子,OpenAI即为其中之一。
而 Anthropic 则一直保持闭门造车,不愿公开。
谷歌则是从部分开放转向接近非开放的状态,例如他们并不公开PaLM背后的所有技术,而尽管他们仍从事许多基础研究,但更多是长远性研究。
这让我觉得很遗憾,因为许多人无形中就排除了自己进入全球研究社区的机会,没有参与和贡献于行业的进步。
过去十年 AI 领域的迅猛发展正是源于开放研究。这不仅是我个人的看法,而是事实。
举个例子,几乎整个AI行业在研发阶段所用的开源软件叫做 PyTorch。这款软件起初由我在 Meta FAIR 实验室的同事团队开发,随后的参与者也逐渐增多。
几年前,PyTorch 的所有权转移到 Linux 基金会,Meta 仍是主要贡献者,然而不再控制它。现在是开发者社区在管理,它成为整个行业的共同工具,OpenAI及其他公司也在使用。
谷歌也有自己的软件,但微软和英伟达等公司同样使用 PyTorch,整个学术界及全球研究界也普遍采用此工具。
根据统计,约 70%的科技论文提到 PyTorch,这足以表明,AI 领域的进展建立在相互研究的成果之上。这便是科技进步的合理途径。
Q:若没有 DeepSeek,那么 OpenAI 的“星际之门”项目是否会改变现状?
LeCun:不,不是的。
让我再谈谈 DeepSeek,这是个出色的成果,参与的团队具备卓越的想法,确实做出了令人称赞的工作。
这并非中国首次推出杰出的创新成果。从计算机视觉领域便可见一斑。
近期,中国在大语言模型方面的贡献逐渐显现,但在计算机视觉领域,许多顶会参与者皆是中国科学家,他们都极为出色。因此,任何地区都无法完全垄断创新。
DeepSeek 的创意或许会被迅速复现,但它现已成为全球知识的一部分,这正是开源与开放研究的美妙之处。在产品层面上,虽然存在竞争,但在基本方法上,我们更应合作。
现如今,各大 AI 公司预见到一个未来——在那未来,数以亿计的人们将日常利用 AI 助手。
例如,我现在带着相机的眼镜,连接着一个 AI 助手,它可以识别植物等。
因此,我们设想的未来是,人们将通过智能设备与 AI 助手持续互动。
这意味着数以亿计的 AI 助手用户,他们将多次使用这些助手。为了满足这一需求,需要庞大的计算基础设施,因为运行大型语言模型或 AI 系统的成本不菲。
事实上,Meta 今年在基础设施方面投资约 600-650 亿美元,主要聚焦在 AI;而微软已宣布投资800亿美元。
而“星际之门”项目计划投入 5000 亿美元,但这是在未来五至十年间的投资,目前仍不明晰这些资金来源,因此与微软及 Meta 的投资规模基本相当,本质上并无太大差别。
这并非是为训练大型模型,而训练成本较低,绝大部分名投资用于推理,即为服务亿计用户的 AI 助手运作。
因此,我认为金融市场对 DeepSeek 出现的反应认为“现在我们可以以更低的成本训练系统了,因此不再需要这么多计算机”是错的。
我的意思是,训练将更高效,但我们最终只会追求更大规模的模型。最终,大多数基础设施建设和投资仍将花费在模型的运行,而非训练上。这才是投资的真正方向。
原视频链接:https://www.youtube.com/ watch?v=RUnFgu8kH-4
参考链接:https://x.com/ vitrupo / status / 1898470276272210294
本文来源于微信公众号:量子位(ID:QbitAI),作者:西风
广告声明:文中提到的外部链接(包括不限于超链接、二维码、口令等形式)意在提供更多信息以节省选择时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。