您现在的位置: 首页 > 战新产业聚焦
DeepSeek对人工智能产业发展影响分析——模型平权 产业共振
发布时间:2025-04-23 作者: 人工智能投资突击队 信息来源:国新投资 字体:

2025年,DeepSeek推出开源推理大模型R1,性能全球领先,成本大幅降低,应用爆发发展阶段大幅提前,对全球人工智能产业发展有重大影响。因此,本文围绕DeepSeek对人工智能全产业链影响进行思考和分析,总体认为,DeepSeek模型的推出将有效提振AI产业链,国产算力重要性依旧突出,应用加速落地。


一、基本情况

(一)大模型简介

深度求索(DeepSeek)于2023年7月创立,创始人为梁文锋。近期,连续发布并开源多个大模型,因其开源、低成本、高性能等特性迅速引发全球关注,加速人工智能应用普及渗透。

2024年12月26日,DeepSeek正式发布了大型语言模型DeepSeek V3,相较于OpenAI o1、Claude、Gemini等闭源模型动辄数亿美元的训练成本,DeepSeek V3总训练成本约为600万美元,降幅超90%。

2025年1月20日,DeepSeek正式发布了DeepSeek R1开源推理模型,在工程体系和算法上有重大创新,在数学、编程和推理等类型任务上达到OpenAI o1同等处理水平,同时大幅降低应用程序编程接口(API)调用成本,在全球140个应用商店下载量排名第一。自DeepSeek R1发布以来,包括国家超算中心、地方智算中心、运营商云计算、科技类上市公司等在内的企业均部署了该模型,国产AI芯片如华为昇腾、海光信息等均完成了DeepSeek R1模型适配工作。

(二)DeepSeek创新点

DeepSeek创新点主要是工程体系和算法,模型效率明显提高,推理成本大幅降低,加速AI普及和规模化应用。DeepSeek在通用大模型V3和其他开源模型基础上,集中资源提升推理能力,重点优化大模型R1且成效显著。R1基于经典Transformer框架,在混合专家模型、不同模型架构(如多头潜注意力)、低精度参数(FP8)的使用等方面做到了不同于一般大模型厂商的创新实践。具体来看,通过混合专家模型,针对性优化编程、数学等特定任务,在上述关键指标接近或超过OpenAI o1。同时,使用思维链等,在仅依赖模型自身迭代条件下具备“反思能力”。

DeepSeek采用开源策略,从技术迭代、生态应用、产业竞争力等多个维度,为中国AI产业争取更多话语权和主动权。相较于Meta LLaMA开源模型,DeepSeek不仅开源了模型的代码和权重,还提供了详细的训练过程和优化方法,如2月启动“开源周”,连续5天开源了5大代码库。全球的开发者和研究者可以深入了解DeepSeek模型技术细节,通过分享经验、解决问题、贡献代码,为国内大模型基座长期发展提供了丰富的智力支持。大国博弈下,DeepSeek开源策略打破了海外闭源模型的技术垄断,能有效加速技术创新与迭代,这不仅是技术选择,更是推动行业革新的战略路径,激发了中国人工智能产业的活力和创新能力。

(三)DeepSeek降本技术路线

工程体系和算法相关技术的降本原理具体如下。

1.混合专家模型(Mixture of Experts,MoE)

训练中将不同专家模块分配到不同计算设备训练,提升训练效率。推理时,仅动态激活部分专家模块(37B参数),而非全模型参数(671B参数),减少计算负担。但经常会面临某些专家模块承担所有工作,其他专家不被使用的问题,业内一般通过辅助损失来调控平衡各个专家模块的工作量,而DeepSeek通过无辅助损失的自然负载均衡、共享专家机制解决该问题,效果显著。

2.多头潜注意力(Multi-Head Latent Attention,MLA)

DeepSeek扩展传统的多头注意力机制,引入潜向量动态调整注意力机制,捕捉任务中多维度隐含语义,减少训练推理过程中内存和算力消耗。

3.多令牌预测(Multi-Token Prediction,MTP)

一般大模型采用单步预测一次生成1个token,DeepSeek通过MTP在特定场景下能同时生成多个token,提高信号密度。一方面,可减少上下文漂移,优化文本输出逻辑;另一方面,能减少重复性中间步骤,在数学、代码和文本摘要等场景提升运行效率。

4.思维链(Chain of Thought,CoT)

DeepSeek将复杂问题拆分成多个中间问题,细化逻辑链条。用标注的CoT数据微调模型,让模型生成更清晰的推理步骤。用CoT设计奖励优化,增强长链推理能力,回溯推理路径,开展多路径推理(能给出多个解)、顿悟时刻(通过策略突破瓶颈)等自发行为,具备“反思能力”。

5.双重流水线(Dual Pipe)

传统训练的信息流水线会存在等待时间、“流水线气泡”等客观缺陷,DeepSeek通过设计双重流水线,让一个计算阶段在等待数据传输时可以切换到另一批数据,充分利用空闲时间。

6.FP8混合精度训练

DeepSeek引入了FP8混合精度训练框架,相比传统的FP16精度,数据内存占用更少,但在部分算子模块保留了FP16、FP32精度,节省算力资源。

7.底层通信优化

DeepSeek开发了高效的通信内核,高效利用通信带宽,提高数据传输效率,有效保障上述工程体系和算法创新的应用落地,能支持大规模部署。


二、各方对DeepSeek评价

科技企业如微软、谷歌、OpenAI等充分肯定了DeepSeek取得的成就,认为其“非常出色”“有真创新”“借鉴发展”“成本下降利于AI推广”等。美国特朗普政府对DeepSeek的公开表态相对正面,“DeepSeek不会对国家安全构成威胁,美国最终可以从这家初创公司的人工智能创新中受益”。美国国会等其他政府主体对其评价经历了由赞叹到压制的态度转变,官方机构禁用DeepSeek,政界着手讨论新一轮芯片限售政策。外资投行对DeepSeek带来的影响评价不一,存在对成本数据的质疑,也有较为正面积极的评价,如摩根士丹利认为“DeepSeek证明中国在AI领域快速追赶的能力”、德银认为“2025年将是投资界意识到中国正在超越世界其他地区的一年”。以意大利、澳大利亚、韩国为代表的其他国家对DeepSeek使用设限,主要出于“数据安全”原因。


三、DeepSeek对人工智能产业影响

DeepSeek的出现是一次中美AI逐渐平权的过程。DeepSeek推出前,中国人工智能产业上游受制于美国,在先进制程、GPU出口管制下,算力资本开支是美国大模型厂商的最大护城河。DeepSeek推出后,通过工程体系和算法的创新,DeepSeek R1在同等精度下算力需求较国际主流模型大幅降低。同时,FP8精度下国产芯片性能可以支撑大模型训练推理,国产大模型能够以更低的算力壁垒继续发展,有望实现快速追赶,逐渐显现中国在数据、应用场景等方面的优势。

通过复盘科技产业发展、调研产业链企业等发现,长期来看,DeepSeek对AI产业具有积极的影响,将有效推动产业发展;中短期来看,国产算力重要性依旧突出,通用大模型竞争加剧,应用落地爆发阶段大幅提前,产业链各环节价值重塑。具体产业链关键环节分析如下。

(一)算力端

整体来看,对算力端长期需求无明显负面影响。从历史角度来看,成本下降是所有硬件技术产品周期的核心驱动力,促进产业发展符合规律,需求增加推动基础设施建设。比如,Jevons悖论研究了煤炭消耗量和蒸汽机的关系,随着蒸汽机问世与生产效率提升,煤炭总消耗量不降反增。再如,2G网络到5G网络发展,单bit成本下降了5000倍,互联网及数字经济繁荣发展,三大运营商作为基础设施提供者业绩不断创历史新高。又如,半导体制程提升,晶体管成本降低成千上万倍,助力电子、半导体行业长期高质量发展。

中短期来看,对ASIC和国产算力发展影响较为积极。一方面,英伟达在GPU领域基本垄断,在算法和模型效率不断提升的趋势下,资本市场对GPU的短期需求和市场空间会有一定程度的重新评估。随着推理成本降低,AI应用爆发,推理侧芯片(ASIC)市场需求得到明显释放。另一方面,考虑到DeepSeek采用低精度FP8技术路线(海外主要是F16、F32混合),对算力芯片要求下降,国产芯片发展确定性更强。同时,出于战略考量,自1月28日以来,美国产业界呼吁加大芯片制裁,美国国会提出“美中人工智能脱钩法案”等,算力环节自主可控势在必行。

(二)大模型端

大模型厂商商业目标分化,SOTA模型持续高投入强度开展高维度竞争,商品化模型降低成本推动更多应用落地适配。大模型厂商可以分成两类,一种是SOTA模型(State of the Art),以模型能力为主要目标,模型能力是定价权,主要是“卷模型能力”,比如OpenAI GPT Pro用模型能力换取高溢价。另一种是“大家都能做出来的模型”,商品化模型叠加数据资源优势,以差异化广泛应用落地为目标,规模化应用实现商业模式闭环,数据资源、行业Know-How、性价比是主要护城河。

对于国内大模型厂商,必须采取差异化发展策略,否则难以存活。整体研判,互联网大厂的“生态控制者”、创业公司的“差异化突围者”、垂直领域的“行业重构者”等具有较强的竞争力。一是互联网大厂,凭借稀缺数据,吸收开源红利,强化生态控制力。大厂可通过引入DeepSeek架构设计、训练方法优化自有模型,同时,凭借稀缺流量与数据护城河,用场景反哺模型,加强生态绑定。比如,阿里将“通义千问”大模型嵌入应用APP,形成“模型-应用-用户”闭环,即使第三方模型性能接近,也难以撼动其生态优势。二是创业公司寻求差异化突围,包括技术路线创新、垂直场景深耕、开源生态借力等。如智谱基于自身闭源的模型底座,通过模型压缩技术(如量化、蒸馏),将百亿参数模型适配至企业本地服务器,满足金融、政务客户的数据隐私需求。技术创新能力较强的厂商如DeepSeek、月之暗面、MiniMax以其特有的模型专长形成差异化竞争。三是垂直领域厂商将从“模型使用者”到“解决方案主导者”,与应用发展同频共振。垂直领域厂商不以“卷模型能力”为目标,而是基于长尾碎片化应用需求,提出基于大模型的解决方案,如医联大模型依托于丰富多元、高质量、结构化的临床诊疗数据,有效满足多层次、个性化医疗需求。

(三)应用端

单个token成本下降,应用落地爆发阶段大幅提前。以产业跟踪判断、美国率先商业化落地情况等作为参考,以下四大方向将率先受到积极影响。

一是互联网方向。互联网大厂既有基础大模型和开源大模型,又有独特海量数据、算法、技术积累,同时在软件层有丰富的应用生态,AI发展将与互联网行业同频共振,加快高质量发展。

二是云计算方向。AI算力需求更为突出,云计算是助力各行各业使用AI赋能场景的核心支撑。算力成本下降、应用场景拓宽等因素推动云计算行业迎来新一轮发展机遇。

三是“模型智能”端侧方向。AI是各类端侧硬件发展的“大脑”,随着国内大模型能力提升,硬件端决策能力增强、控制精度提高,将有效推进智能驾驶、机器人等产业快速发展。

四是高容错场景方向。R1等大模型具备较强的推理能力,但其准确性仍有待提升,优先落地应用主要为高容错场景,包括“AI+办公”“AI+教育”等。

(国新投资)


免责声明

本文的分析及建议所依据的信息均来源于公开资料,我们对这些信息的准确性和完整性不作任何保证,也不保证所依据的信息和建议不会发生任何变化。我们已力求文章内容的客观、公正,但文中的观点、结论和建议仅供参考,不构成任何投资建议。投资者依据文章提供的信息进行投资所造成的一切后果,概不负责。文章未经书面许可,任何机构和个人不得以任何形式翻版、复制和发布。如引用、刊发,需注明出处为国新资讯,且不得对文章进行有悖原意的引用、删节和修改。


往期推荐

微信

小程序
Produced By CMS 网站群内容管理系统 publishdate:2025-04-23 13:18:44