您现在的位置: 首页 > 战新产业聚焦
数据产业是发挥中国人工智能竞争优势的战略和关键
发布时间:2025-07-02 作者:人工智能投资突击队 信息来源:国新投资 字体:

随着人工智能产业发展,大模型能力提升需要数据作为“燃料”。普遍认为,目前公开的、互联网直接可用的AI训练数据已基本用完,若无进一步数据资源支撑,AI未来发展将存在“数据瓶颈”。数据作为人工智能进一步提升能力、实现商业闭环的生产要素,对后续产业发展影响重大。本文将聚焦数据产业。总体来看,数据是中美人工智能布局差距最大的环节,也是国内人工智能产业实现跃升的关键发力点。一方面,美国数据产业商业模式成熟,中美差距极大。美国数据产业孕育了数十家龙头企业,如数据分析龙头Snowflake和Databricks,当前估值超过5500亿元人民币和4000亿元人民币;特定领域数据分析龙头Palantir,市值约20000亿元人民币;数据标注龙头ScaleAI,估值超过1700亿元人民币等。另一方面,国家高度重视数据产业,如成立国家数据局等。近日,国务院国资委也发布了首批10余个行业30项央企人工智能行业高质量数据集。国内相关企业也在对标和创新,持续推动国内数据产业实现从“1”到“100”的跨越式发展。


一、中美布局分析:数据是中国人工智能产业高质量发展的薄弱环节,应强但不强,具有较大挖掘潜力

    互联网时代,中国凭借庞大人口、超大市场、领先基础设施和政策产业协同发力,实现“后发制人”,完成对美国的追赶和并进。互联网技术起源于美国,中国依托于快速成长的超大规模市场,为新技术、新产业、新业态、新模式的快速发展创造广阔空间,体现出强大的后发优势,“飞轮效益”显著,百度战胜了谷歌,阿里巴巴的淘宝击退了易趣,滴滴战胜了优步,成就了阿里巴巴、腾讯、百度等互联网巨头。同时,做到了不断创新,培育了以字节跳动(Tiktok)、美团为代表的新业态。在这样的背景下,互联网产业优势迁移到人工智能产业,直观判断往往是中国在数据资源等方面具有独特优势,其实不然。

人工智能时代,站在当下中美两国各具优势,其中,数据是中国能快速发力“补短板”的重要方向。人工智能产业高质量发展,能源电力、算力、算法、数据、应用这一闭环中,各个环节缺一不可。除数据之外的其他环节,中美两国竞争优势已基本清晰,中短期发生颠覆性变化的可能性不大。中国在电力、应用场景、人才等方面领先,大模型算法性能基本完成追赶;但美国在先进制程、算力芯片等方面布局显著优于中国。对于数据,中美两国资源禀赋都较好,挖掘使用方面存在显著差异。中国公共数据占全社会数据资源的70%以上,但大部分尚未开发,且结构化数据存在短板,导致人工智能大模型训练数据呈现总体量级不足、质量较低、来源匮乏等现象。以阿里巴巴为例,其“通义千问”的中文语料主要来自知乎、百度百科、百度知道等公开网络数据,来源于政府的公共数据较少。而高质量的中文数据集主要集中在政府、知名学术机构、媒体机构中,大模型开发者利用高质量中文数据集面临采集难、获取门槛高等问题。美国对公共数据秉持“应开尽开”的原则,是全球第一个开放政府数据的国家,政府建设并运营维护专门针对AI训练数据的开放平台,其中包括各级政府及政府资助的大学和研究机构的数据,为私营部门提供了丰富的数据资源,目前平台拥有近30万个数据集。据AI应用开放社区Hugging Face数据统计,中文开源数据集数量仅占英文开源的11%。

因此,推动AI高质量数据集建设,促进数据资源开发利用是中国推动人工智能产业发展水平得到显著跃升的关键,需要充分发挥中国的数据优势,以高质量数据集建设赋能大模型训练、助力高价值场景落地。

二、数据产业情况:十万亿级别大市场,国内产业起步,相关企业持续对标创新,孕育未来千亿龙头

美国数据产业商业模式成熟,孕育了数十家千亿级估值的独角兽企业。美国提倡数据自由流动,尽可能多地获取和掌控全球数据资源,逐步形成“防止数据产权垄断,坚持公共数据开放,引导企业数据共享,兼顾个人隐私保护,布局全球数据规则,鼓励数据经纪发展”的数据要素市场化方式和路径。相应地,在数据存储、数据处理、数据分析、数据流通、数据运营和数据安全等各个环节,均有百亿至千亿及以上估值的龙头企业。比如,数据存储与分析龙头Snowflake和Databricks,当前估值超过5500亿元人民币和4000亿元人民币,特定领域数据分析龙头Palantir,市值约2万亿元人民币;数据标注龙头ScaleAI,估值超过1700亿元人民币等;数据存储龙头企业DataDirect Networks(DDN),估值超过350亿元人民币等。

我国尚处于数据资源开发利用的起步阶段,相关企业持续对标和创新,细分赛道均存在孕育龙头企业的机会。市场规模方面,数据产业潜在市场规模约为十万亿元。以深度参与数据要素市场政策及评估相关专家口径为参考,目前估计数据资源价值约为10万亿元人民币,如果考虑数据衍射带动产业发展,整体数据产业市场规模将会更大。参与企业角度,中国公共数据占全社会数据资源的70%以上,归属于政府、央国企等,后续该部分数据资源是发展的重中之重。考虑到安全可靠性等要求,国资央企在数据产业发展浪潮中大有可为,有望发展成为中国的“Databricks和Palantir”。比如,广电运通致力于成为人工智能行业应用领军企业,明确新时代战略目标,积极培育数据要素一级市场业务的建设与运营能力,在公共数据处理加工、开发利用、交易等环节打造核心竞争力;达梦数据作为数据库龙头企业,聚焦可信数据空间与数据基础设施建设,在数据库与人工智能融合应用、多模数据库、事务分析混合处理等技术方向布局研究;中国联通凭借运营商资源禀赋和能力优势,大数据服务2024年收入已超过60亿元。

综上,国有资本运营公司持续研究中国数据产业发展具有积极意义。后续,相关团队将不断深入跟踪具有中国特色的产业发展路径和商业模式,挖掘数据基础设施、数据标注、数据运营相关“独角兽”企业,以及拥有独特高质量数据集的优势企业,运用国有资本运营公司工具箱,更好服务于国资央企优化升级和转型发展,助力中国人工智能产业迈向更高水平。

(国新投资)


免责声明

本文的分析及建议所依据的信息均来源于公开资料,我们对这些信息的准确性和完整性不作任何保证,也不保证所依据的信息和建议不会发生任何变化。我们已力求文章内容的客观、公正,但文中的观点、结论和建议仅供参考,不构成任何投资建议。投资者依据文章提供的信息进行投资所造成的一切后果,概不负责。文章未经书面许可,任何机构和个人不得以任何形式翻版、复制和发布。如引用、刊发,需注明出处为国新资讯,且不得对文章进行有悖原意的引用、删节和修改。

往期推荐

微信

小程序
Produced By CMS 网站群内容管理系统 publishdate:2025-07-02 15:03:00