写给小白的大模型入门科普
正文:网上涵盖大型模型的文章不胜其数,但是内容通常较为晦涩。小编今日撰写本文,力求用通俗易懂的语言介绍大型模型。
废话不多说,直接进入主题。
█ 什么是大型模型?
大型模型,英文名称为Large Model,又称基础模型Foundation Model。而大模型是其简称,全名为“人工智能预训练大模型”。接下来会详细解释预训练技术。
通常提到的大型模型实际上是指其中一类,也是应用最广泛的语言大型模型Large Language Model(LLM)。除了语言大型模型外,还有视觉大型模型、多模态大型模型等,将所有这些大模型总称为广义的大模型,而语言大型模型则是狭义的一部分。
从本质来看,大型模型是指具有超大规模参数(通常超过十亿个)的神经网络模型。
早前在介绍人工智能时,曾提到神经网络是目前人工智能领域最基础的计算模型。通过模拟大脑中神经元的连接方式,神经网络能够学习输入数据并产生有用的输出。
卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)以及transformer架构都属于神经网络模型。目前,大部分的大型模型采用transformer架构。
大型模型不仅包含大规模参数,还包括庞大的架构、训练数据和计算资源需求。
以OpenAI公司的GPT-3为例,该大型模型具有96层隐藏层,每层包含2048个神经元。
整体架构规模庞大,神经元节点众多。神经元节点数量的增加会导致参数数量的增加,例如,GPT-3约含有1750亿个参数。
大型模型的训练数据也非常巨大。以GPT-3为例,其训练使用了45TB的未处理文本数据,清理后大小为570GB。数据集包括CC数据集、WebText2、BookCorpus和维基百科,总词量巨大。
最后是计算资源需求。训练大型模型需要大量的GPU算力资源,并且每次训练都需要相当长的时间。
公开数据显示,训练GPT-3约需要3640PFLOP・天。如果使用512张英伟达的A100 GPU,大约需要1个月时间,但实际上训练过程中可能会遇到中断,因此实际时间会更长。
总的来说,大型模型是一个庞大的存在,具有复杂的架构、大量参数、依赖丰富数据且成本高昂。
对比之下,参数较少、层数较浅的模型被称为小型模型。小型模型具有轻便高效、易部署等优点,适用于数据量小、计算资源有限的情境。
█ 大型模型的训练过程
接下来我们了解大型模型的训练过程。
大型模型通过学习海量数据吸收数据中的“知识”,再将其运用于回答问题、生成内容等任务。
学习过程称为训练,而应用过程称为推理。
训练包含预训练和微调两环节。
预训练
在预训练阶段,需要选择一个大型模型框架,如transformer,并通过提供海量数据使其学习通用特征。
大型模型具有强大的学习能力是因为参数数量越多,学习能力越强。在MIT公开课中,提到了深度学习模型中神经元的结构。
神经元的处理实质上是函数运算过程,通过训练以获得权重,权重对输入特征与模型输出的影响至关重要。此外,除权重外,还有另一类重要的参数偏差。
预训练通过数据的输入输出不断“推导”合理的权重和偏差(即参数)。训练完成后,这些参数将被保存用于模型的后续操作或部署。
参数数量越多,通常模型能够学习到更复杂的模式和特征,在各类任务中表现出更强效能。
大模型具备涌现能力和泛化能力这两特性。
在训练数据和参数规模逐渐扩大至一定临界规模后,大模型会展现出一些无法预测的复杂能力和特性。模型能够自动从原始数据中学习并发现新的更高级别的特征和模式,这便是“涌现能力”。
“涌现能力”指的是大模型突然获得理解知识的能力,不再只是重复知识,而是理解并推广应用。
泛化能力指的是大模型通过处理大量数据学习复杂模式和特征,能够对未知数据做出准确预测。
简而言之,大模型就好比书读得多的人,即使没读过的书也能猜测几句内容。
参数规模越大,虽然会使大型模型变得更强,但也会增加资源消耗并可能增加过拟合风险。
过拟合指模型过于精确地学习训练数据,开始捕捉和反映数据中的噪声和细节,而非总体趋势或规律。这会导致模型变得“刻板”,只懂死记硬背,不善于综合思考。
预训练使用的是海量未标记数据。
因未标记数据在互联网上容易获取,相较标记数据(需要人工标注)耗时和花费更低。
预训练模型通过各种无监督学习方法从未标记数据中学习通用特征。数据需要经过收集、清洗、脱敏和分类等处理,以规范化数据、减少异常和错误数据,确保数据适用于训练。
数据获取方式多样化,个人和学术研究可通过官方论坛、开源数据库或研究机构,企业可自主收集、处理,也可通过专门数据提供商购买。
微调
预训练后获得一个通用大型模型,通常不可直接使用,因性能在执行特定任务时可能较差。
此时需要进行微调。
微调即为提供特定领域标注数据集,微调预训练模型参数,以优化模型执行特定任务的效果。
微调后的大型模型称为行业大型模型。例如,通过基于金融证券数据的微调,得到金融证券大型模型。
若基于更专业领域进行微调,则称为专业大型模型(也叫垂直大型模型)。
通用大型模型类比中小学生,行业大型模型类比大学本科生,专业大型模型类比研究生。
微调阶段,数据量远低于预训练阶段,因此对计算资源需求降低。
大部分大型模型厂商仅进行预训练,不进行微调。而行业客户则主要进行微调而不进行预训练。
“预训练 + 微调”这种分阶段的训练方式可以避免重复投入、节省计算资源,显著提升大型模型的训练效率和效果。
训练完大型模型后需进行评估,通过实际数据或模拟场景评估验证模型性能、稳定性和准确性等是否达到设计要求。
一旦评估和验证完成,大型模型基本定型,参数不再变化,可用于实际推理任务。
推理过程即为使用大型模型的过程,通过提问和提示词,让模型回答问题或生成内容。
最后,绘制完整流程图:
█ 大型模型究竟有何作用?
根据训练数据类型和应用方向,大型模型通常分为语言、音频、视觉和多模态大型模型。
语言大型模型擅长自然语言处理领域,能够理解、生成和处理人类语言,常用于文本内容创作、文献分析、机器翻译等场景。例如ChatGPT就属于此类模型。
音频大型模型用于识别和生成语音内容,常应用于语音助手、语音客服服务等场景。
视觉大型模型在计算机视觉领域表现出色,可识别、生成、修复图像,通常应用于安防监控、自动驾驶、医学图像分析等场景。
多模态大型模型结合语言和视觉能力,整合处理不同模态信息(文本、图像、音频、视频等),可处理跨领域任务,如文生成图、文生成视频、跨媒体搜索等。
近年来,多模态大型模型令人瞩目成为行业关注焦点。
按应用场景分类,则存在更多类别,如金融、医疗、法律、教育、代码、能源、政务、通信等大型模型。
例如金融大型模型可用于风险管理、信用评估、交易监控、市场预测等。这些模型的功能多样且应用广泛。
█ 大型模型的发展趋势?
截至2024年3月25日,中国10亿以上参数规模的大型模型数量已超过100个,被称为“百模大战”。
这些大型模型在应用领域和参数规模上各不相同,但背后都消耗了大量资金。
据行业估计,训练一个大型模型可能需数百万至数亿美元。例如,GPT-3的训练成本约为140万美元,而Claude 3模型的训练费用高达约1亿美元。
虽然大量企业推出大型模型,但实际上这也是资源的一种浪费。
此外,大型模型分为开源和闭源两类。部分企业能够开发闭源大型模型,但这样的企业并不多。大部分大型模型基于开源框架和技术开发,主要是为迎合资本市场的需求或跟风。
行业中仍有部分领先企业努力打造更大规模的超大模型(拥有数万亿至数千万亿参数),例如OpenAI、xAI等。
对于大部分企业而言,百亿和千亿参数已达到天花板,进一步提升的动力不强,财力也不允许。
随着行业渐趋理性,关注焦点从“打造大型模型”转向“使用大型模型”。如何将大型模型应用到具体场景、吸引更多用户、通过大
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。