DeepSeek 冲击之下,大模型六小强如何「回应」?

xxn 阅读:4352 2025-02-18 00:03:52 评论:0

已经过去了一个月!自从开始,DeepSeek 打乱了全球大型模型市场,引发了混乱

各家国内外公司都面临压力,被迫回答:你对 DeepSeek 有什么看法?DeepSeek 出现了,你们打算怎么办?

一些企业选择避而不谈,而另一些则选择积极回应。

在国内,像腾讯这样的公司,最近推出了“AI搜索”功能的微信灰度测试,其中使用的是 DeepSeek-R1;而百度则宣布从4月起免费使用文心一言,下一代文心模型计划开源……

国外就比如说,OpenAI紧急发布了o3-mini模型,进行了深度搜索,并公开了o3思维链条;谷歌DeepMind发布了Gemini 2.0系列,新增了Gemini 2.0 Flash-Lite模型,其API的定价能力比DeepSeek还要强大;

然而,尽管全球AI大型模型局势正在重塑,许多人国内依然关注着一个问题:

六家大型模型初创公司已成为“大模型六小强”,包括零一万物、百川智能、阶跃星辰、智谱华章、月之暗面、MiniMax。

在DeepSeek的激烈冲击下,他们正在如何应对?

冲击之下,六小强的反应

六小强中,没有任何一家公开表态支持或反对DeepSeek。

但这并不意味着它们没有任何行动 —— 实际行动比言辞更能说明问题。

请注意:以下内容涵盖了六小强在1月20日后的最新动向

零一万物

在DeepSeek-R1发布之前,零一万物的创始人李开复博士已经表示,他们不再专注于训练超大型模型。

经过半年多的探索验证,他们确定轻量化模型更适合商业场景,该模型具有适中的参数、优异的性能、更快的推理速度和更低的成本,“将成为AI首次应用大爆发的催化剂”。

随着DeepSeek的推出,零一万物第一次公开亮相,选择与苏州合作 ——

2月14日,零一万物与苏州高新区共同成立了产业大型模型基地并正式授牌。

该模型基地专注于垂直行业,重点打造制造、金融、医疗、政务、生物、具体领域的行业大型模型解决方案,联合7家企业,致力于“将大型模型技术从实验室推向生产线的产业化路径”。

在现场,李开复表示,在人工智能技术重塑产业的关键时刻,大型模型不仅仅是“空中楼阁”,更是推动实体经济的核心引擎。

零一万物官方表示:

除了1月2日和阿里云合作成立“产业大型模型联合实验室”外,零一万物又一次在产业大型模型领域取得了突破。

通过在苏州高新区成立“产业大型模型基地”,零一万物的模型能力商业化进展加速。

百川智能

DeepSeek-R1发布后的5天,1月25日,百川智能发布了新模型Baichuan-M1-preview。

这是百川的首个全场景思考大型模型。全场景指的是该模型具备语言、视觉和搜索三个领域的推理能力。

同时,百川也继续在医疗领域努力:

Baichuan-M1-preview开启了医疗循证模式,公司表示它“实现了从医疗证据检索到深度推理的完整端到端服务,能够快速、精准地回答医疗临床、科研问题”。

2月13日,在通过近一个月内测后,以Baichuan-M1为基础的“AI儿科医生”在北京儿童医院”上岗”。

对于临床诊断,该系统首先基于病史生成诊断假设,然后根据检验数据进行验证,并最终通过自我反思机制对可能的诊断进行排序,输出符合临床思维路径的建议。

当天,北京儿童医院进行了国内首次的“AI儿科医生+多学科专家”多学科会诊。除了13位多科室专家外,与会者还包括了医院、百川智能和小儿健康科技(百川投资的医疗数据公司)合作开发的“AI儿科医生”。

会议讨论的一个案例是一个患有颅底肿物和抽搐症状的患儿,同时,工程师将患者的描述和病历输入模型。

AI儿科医生提供的建议与专家组会诊结果高度一致。

阶跃星辰

在DeepSeek-R1发布当天,阶跃星辰正在进行模型更新。

1月20日发布的两款语言模型,一款是轻量级、响应速度快、性能高的Step-2-mini,另一款是专为文学创作设计的Step-2文学大师版

接下来的两天,阶跃继续发布更新。

21日,推出升级语音模型Step-1o Audio,还推出多模态理解大型模型Step-1o Vision。后者发布后迅速在大型模型竞技场上获得前十名的位置,是视觉领域国产模型的第一名。

22日,发布视频生成模型Step-Video V2版本,此版本基于上一代V1,新增了VAE模型、DiT架构和RL结合、多模态应用等功能的升级。

除了模型更新,阶跃星辰旗下的应用“跃问”在1月24日推出了全新功能AI创意板。

该应用说可以“在3个步骤内实现想法的开发,无需编码”,并且可共享结果。

顺便说一句,我们发现,“跃问”似乎已经悄悄接入了DeepSeek-R1……

在喧闹的春节前,阶跃星辰系统负责人朱亦博在朋友圈中透露,春节后将有重大动作。

这场“大动作”可能会在2月21日阶跃星辰举办的首届“Step Up生态开放日”上揭晓。至于是否会有针对DeepSeek-R1的反应动作或战略,会议上会有更多的细节。

智谱华章

2月11日,智谱创始人唐杰在巴黎大皇宫举行的第三届人工智能行动峰会上发表了关于“人工智能技术进步与应用”的讲话。

他是唯一参加大模型代表的人。

在介绍了对AGI的五个阶段划分后,唐杰表示目前正处于L2和L3的交汇处,即“对齐人类意图的机器”和“机器自我学习”的交汇处。

2025年的部分关键字包括:

  • 具有自主Agent能力的大型语言模型(Agentic LLMs)将成为日常工作和生活的核心。

  • 通过设定高级目标,自主LLMs将制定计划、利用数字设备并执行复杂项目,几乎不需要人类干预。

  • 这些自主系统将不再是孤立的实体,而是通过协作工作,相互补充,以更高效地完成任务。

另外,面对DeepSeek的影响,智谱首次反应更多地专注于开展新的项目。

首先是2月11日,与三星继续合作。

这次合作使Agentic GLM(智谱专为手机开发的系统级大型模型)可以在三星最新的Galaxy S25系列手机上运行,提供基于AI的实时语音和视频通话,以及视觉理解和系统功能调用、AI搜索、文案创作等功能。

(这与唐杰在同一天的发言形成了呼应)

量子位发现,虽然没有公开宣布,但智谱最近已经开始与二次元中的热门AI绘图软件“捏 ta”展开合作。

一方面,智谱推出了“捏 ta”视频模型;另一方面,基于智谱的CogVideoX-2模型等,与涅 ta发起了联名活动。

月之暗面

巧合的是,DeepSeek-R1发布一个半小时后,月之暗面宣布了他们的Kimi k1.5多模态思考模型。

根据相关论文《Kimi k1.5:Scaling Reinforcement Learning With LLMs》显示,k1.5的设计和培训具有几个关键特征:

长上下文扩展。

团队将RL的上下文窗口扩展到128k,一项关键思想是利用部分展开来提高培训效率。

策略优化改进。

团队推导出长CoT的RL公式,并采用在线镜像下降的变种进行稳健的策略优化。

简洁框架。

上述两者的结合为通过LLMs学习简化了一个简洁的RL

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容