本报记者 陆航
2025年春节期间,国产大模型DeepSeek成为全球AI领域的一颗新星。DeepSeek开源版本在文本生成、代码编写、逻辑推理等任务中表现优异。这一突破不仅打破了美国在生成式AI领域的绝对优势,更以百倍性价比提升的实践路径,为我国AI发展注入一剂强心针。2月8日,“DeepSeek影响与启示”特别论坛在西安举行。与会学者聚焦DeepSeek的技术突破、行业变革以及对未来发展的启示,共同探讨如何通过技术创新与自主研发提升我国人工智能竞争力。
技术创新为全行业
注入新的活力与信心
DeepSeek是源于算法、软件与硬件的系统性协同创新成果。浙江大学人工智能研究所所长吴飞认为,DeepSeek的精彩表现是众智和众力相互叠加的成果。尽管DeepSeek模型基于Transformer架构,并非颠覆性基础理论创新,但是DeepSeek的确是AI漫漫征途中的精彩一跃,也为AI未来发展带来了深刻启示。事实上,AI发展迄今取得的成就都是由过往一次次“精彩一跃”绘就而成。2024年,诺贝尔物理学奖授予AI就是这样一个注解:约翰·霍普菲尔德和杰弗里·辛顿分别从物理学能量最小和玻尔兹曼分布角度优化神经网络模型参数,为当下深度学习的崛起打下了坚实的历史桩基。DeepSeek“渐进式突破”路径证明,通过系统工程优化同样能实现跨越式发展,科技创新中不可忽视系统级工程创新的作用。
DeepSeek之所以实现了百倍性价比提升,其中一个重要原因是在系统软件层面的深度创新。在清华大学计算机科学与技术系教授翟季冬看来,算法、软件、硬件的协同创新,是打破传统大模型依赖算力范式的关键。DeepSeek首先是算法层次的创新,采用了新的MoE架构,即共享专家和大量细粒度路由专家架构。通过将通用知识压缩到共享专家中,减轻路由专家的参数冗余,提高参数效率;在保持参数总量不变的前提下,划分更多的细粒度路由专家,通过灵活地组合路由专家,更准确和有针对性地进行知识表达。同时,通过负载均衡的算法设计,有效缓解了传统MoE模型因负载不均衡带来的训练效率低下问题。在系统软件层次,DeepSeek采用了大量精细化的系统工程优化。算法和软件的创新与优化,极大地降低了模型的训练成本。DeepSeek给我们的启示,更多在于如何在有限的算力情况下,通过算法和软件的协同创新,充分挖掘硬件的极致性能。这对中国未来人工智能发展至关重要,也对国内大模型发展具有启示意义。
随着深度学习时代的到来,机器学习理论的缓慢演进已逐渐落后于技术水平的飞速发展,机器学习理论与技术之间开始产生越来越大的鸿沟。大量“启发式”技术发现的深度学习性能表现无法找到有效的理论解释,重建现代机器学习理论体系已成为该领域需要迫切突破的核心瓶颈。若无法实现这一目标而任由机器学习/深度学习走向“炼金术式”工程化,更多缺乏可控性、安全性、解释性的技术难题将会不可避免地滋生,导致以科学性为前提的学科大厦面临行将倾覆的危局。
西安交通大学数学与统计学院教授、大数据分析与计算分析工程实验室统计与大数据中心常务副主任孟德宇通过分析机器学习传统统计学习理论体系的特点与局限,综合介绍了以大模型为代表的现代机器学习技术广泛呈现的三大难题:“任务泛化能力”现象所揭示的学习理论泛化范畴局限难题、“智能涌现”现象所揭示的学习理论泛化趋势偏差难题及“鲁棒—精度悖论”现象所揭示的学习理论泛化边界缺失难题。他强调,随着现代工程技术的蓬勃发展,特别是DeepSeek技术使机器学习能力开始更加广泛地普惠大众,重塑机器学习理论根基以阐释这些现象背后的数理机理,使机器学习成为一门兼具理论完备性与技术有效性的学科,已成为当今人工智能领域亟须面对且不可回避的关键科学问题。
自主研发
提升我国人工智能竞争力
技术创新与自主研发对于提升我国人工智能竞争力至关重要。我们不能盲目跟随大公司的步伐,而应坚定地相信自身技术能力,发挥自身技术优势,这一点对于确保我国在人工智能领域的持续领先地位尤为关键。
DeepSeek为全球AI技术发展带来了独特的贡献和创新,它在算法优化、模型泛化能力等方面的突破,不仅推动了AI技术的边界拓展,也为其他领域的技术创新提供了有益借鉴。论坛专家呼吁产业界和学术界应合力培养人才、突破原始理论,在基础方法和产业应用研究中共同发挥创新优势。为维持并增强这种创新势头,政府、企业、高校和研究机构各方需进一步加强协作,共同优化资源配置,确保人才培养与行业需求相匹配、教育内容与科技前沿相衔接、科技创新成果迅速转化为实际生产力。
自主研发是提升我国人工智能竞争力的核心路径。当前,全球AI技术竞争已进入白热化阶段,我国在应用场景、数据规模和政策支持上具有显著优势,但在基础算法、高端芯片、开源框架等核心技术领域仍存在“卡脖子”问题。如何通过自主研发实现技术突破、构建自主可控的产业生态,是我国抢占全球AI战略制高点的关键。
提升AI竞争力是一场关乎国运的战略博弈。西安电子科技大学人工智能学院副院长李甫表示,通过“硬件突围—软件筑基—算法创新—应用推广”四位一体的自主研发路径,我国有望在2025—2030年实现关键领域自主可控,构建起具有全球影响力的AI创新体系。这不仅需要技术突破,更需要制度创新与开放合作的智慧——既要打破技术枷锁,也要避免“闭门造车”,在自主可控与全球化协作中寻找动态平衡。
智能化技术在提升性能和增效方面发挥着不可替代的作用。DeepSeek的成功不仅在于其卓越的技术,更在于它能够与智能硬件实现无缝对接,形成强大的生态协同效应,从而极大地推动AI技术在各行各业的广泛应用。人工智能模型的开源为实现人人可用的普遍智能带来曙光。西北工业大学计算机学院教授、智能感知与计算工信部重点实验室副主任郭斌认为,大模型推理成本的降低,将对工业界和其他多个领域产生积极影响,DeepSeek将为中国产业发展注入新的活力,特别是在海外市场,有望带动国内硬件厂商和产业的全球布局,为全球产业创造更多机遇,为人类进步和发展作出贡献。
DeepSeek的跃升绝非偶然,而是我国AI发展模式转型的缩影——从“市场换技术”转向“创新驱动”,从“单点突破”升级为“系统攻坚”。这条道路既非完全自主封闭,也非被动跟随,而是在关键领域构筑“技术主权”的同时,通过开源协作、标准输出、生态共建,深度参与全球创新网络。软件生态的建设不易,硬件生态的形成则更为困难。我们只有建立起完善的创新生态体系,通过海外部署软件带动国内硬件产业的发展,才能持续推动AI技术的蓬勃发展,为区域经济和社会发展注入强大动力,并为全球科技提供一个“中国选择”。这一策略不仅能够促进国内经济发展,也有助于提升我国在全球科技竞争中的地位。未来,随着国家超算互联网、东数西算工程等基础设施的完善,我国有望在AI芯片、框架、算法三大领域实现自主化率新突破。中国AI正以“有限算力+无限智慧”书写智能时代的中国方案。
论坛由陕西省计算机学会、中国计算机学会(CCF)西安会员活动中心等单位联合举办。