当前位置：首页 > 财经 > 正文

Chatgpt需要多少算力？联想、浪潮等引发范式革命

证券之星2023-02-14 19:50:05 阅读量：5155 阅读量：14315

华泰证券发布最新研报，认为ChatGPT将带动算力需求，核心环节有望率先受益。

研报中具体观点认为:

从需求端来看，大模型训练带来高算力需求。

模型算力需求增速超越芯片性能增速，算力霸权时代或将到来。据OpenAI测算，自2012年以来，全球头部AI模型训练算力需求3-4个月翻一番，每年头部训练模型所需算力增长幅度高达10倍。而摩尔定律认为，芯片计算性能大约每18-24个月翻一番。因此，AI训练模型算力需求增长与芯片计算性能增长之间的不匹配，或将带来对算力基础设施供给需求的快速增长。我们认为，考虑到算力对于AI模型训练效果的关键性作用，拥有更丰富算力资源的模型开发者，或将能够训练出更优秀的AI模型，算力霸权时代或将开启。

具体来看，AI大模型对于算力资源的需求主要体现在以下三类场景:

1、模型预训练带来的算力需求

模型预训练过程是消耗算力的最主要场景。ChatGPT采用预训练语言模型，核心思想是在利用标注数据之前，先利用无标注的数据，即纯文本数据训练模型，从而使模型能够学到一些潜在的跟标注无关的知识，最终在具体的任务上，预训练模型就可以利用大量的无标注数据知识。在Transformer的模型架构下，语言预训练过程可以根据上下文一次处理所有输入，实现大规模并行计算。通过堆叠多个解码模块，模型的层数规模也会随着提升，可承载的参数量同步增长。与之相对应的，模型训练所需要消耗的算力也就越大。

华泰证券预计，训练一次ChatGPT模型需要的算力约27.5PFlop/s-day。据OpenAI团队发表于2020年的论文《Language Models are Few-Shot Learners》，训练一次13亿参数的GPT-3 XL模型需要的全部算力约为27.5PFlop/s-day，训练一次1746亿参数的GPT-3模型需要的算力约为3640 PFlop/s-day。考虑到ChatGPT训练所用的模型是基于13亿参数的GPT-3.5模型微调而来，参数量与GPT-3 XL模型接近，因此我们预计训练所需算力约27.5PFlop/s-day，即以1万亿次每秒的速度进行计算，需要耗时27.5天。

此外，预训练过程还存在几个可能的算力需求点:

1)模型开发过程很难一次取得成功，整个开发阶段可能需要进行多次预训练过程；

2)随着国内外厂商相继入局研发类似模型，参与者数量增加同样带来训练算力需求；

3)从基础大模型向特定场景迁移的过程，如基于ChatGPT构建医疗AI大模型，需要使用特定领域数据进行模型二次训练。

同时，日常运营带来的算力需求旺盛。

从模型迭代的角度来看，ChatGPT模型并不是静态的，而是需要不断进行Finetune模型调优，以确保模型处于最佳应用状态。这一过程中，一方面是需要开发者对模型参数进行调整，确保输出内容不是有害和失真的；另一方面，需要基于用户反馈和PPO策略，对模型进行大规模或小规模的迭代训练。因此，模型调优同样会为OpenAI带来算力成本，具体算力需求和成本金额取决于模型的迭代速度。

从供给端来看，核心环节有望率先受益。

算力芯片:AI算力基石，需求有望大规模扩张

GPU架构更适合进行大规模AI并行计算，需求有望大规模扩张。从ChatGPT模型计算方式来看，主要特征是采用了并行计算。对比上一代深度学习模型RNN来看，Transformer架构下，AI模型可以为输入序列中的任何字符提供上下文，因此可以一次处理所有输入，而不是一次只处理一个词，从而使得更大规模的参数计算成为可能。而从GPU的计算方式来看，由于GPU采用了数量众多的计算单元和超长的流水线，因此其架构设计较CPU而言，更适合进行大吞吐量的AI并行计算。基于此，随着大模型训练需求逐步增长，下游厂商对于GPU先进算力及芯片数量的需求均有望提升。

服务器:AI服务器有望持续放量

ChatGPT主要进行矩阵向量计算，AI服务器处理效率更高。从ChatGPT模型结构来看，基于Transformer架构，ChatGPT模型采用注意力机制进行文本单词权重赋值，并向前馈神经网络输出数值结果，这一过程需要进行大量向量及张量运算。而AI服务器中往往集成多个AI GPU，AI GPU通常支持多重矩阵运算，例如卷积、池化和激活函数，以加速深度学习算法的运算。因此在人工智能场景下，AI服务器往往较GPU服务器计算效率更高，具备一定应用优势。

以浪潮信息目前算力最强的服务器产品之一—浪潮NF5688M6为例。NF5688M6是浪潮为超大规模数据中心研发的NVLink AI服务器，支持2颗Intel最新的Ice Lake CPU和8颗NVIDIA最新的NVSwitch全互联A800GPU，单机可提供5PFlops的AI计算性能。

再以联想为例，其服务器SR670 V2 3U，也释放了新的算力。R670 V2是一款GPU丰富的3U机架式服务器，支持8个双宽GPU，包括NVIDIA A 100和A40 Tensor Core GPU，以及配备NVLink和Lenovo Neptune混合液体的NVIDIA HGX A100-GPU型号到空气冷却。SR670 V2为各行各业的AI、高性能计算和图形工作负载提供最佳性能。无论是零售、制造、金融服务和医疗保健行业，都可以利用其GPU的处理能力来提取更重要的见解并利用机器学习(ML)和深度学习(DL)推动创新。一个由13个SR670 V2组成的机架可以产生多大两个PFLOPS的计算能力，为AI和HPC工作负载提供优化的加速性能。

此外，联想服务器产品市场份额位居全球第三；在高性能计算领域，联想多年在全球和中国市场排名第一；在基础型存储市场份额全球第一；在中国，联想在中小企业服务器市场份额排名第一、基础型存储市场份额排名第三。

数据中心:核心城市集中算力缺口或将加剧

IDC算力服务是承接AI计算需求的直接形式。ChatGPT的模型计算主要基于微软的Azure云服务进行，本质上是借助微软自有的IDC资源，在云端完成计算过程后，再将结果返回给OpenAI。可见，IDC是承接人工智能计算任务的重要算力基础设施之一，但并不是所有企业都需要自行搭建算力设施。从国内数据中心的业务形态来看，按照机房产权归属及建设方式的角度，可分为自建机房、租赁机房、承接大客户定制化需求以及轻资产衍生模式四种。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

图文