在全球经济活动中,大模型正扮演着愈发重要的作用。2022年底,OpenAI的ChatGPT横空出世,掀起了人工智能语言大模型(LLM,Large Language Model)新浪潮。
生成式人工智能DeepSeek作为2024—2025年中国发布的参数量约为OpenAI一半多的大模型,并没有走向上万亿个参数的“参数越多越好”的模式,却在性能上超越了现有的很多开源模型,还在一些评测中不输于世界顶尖的闭源模型,这成为中国发展人工智能大模型的一个标志性事件。这一科技创新事件,激发了中国的经济信心。中国以更低能耗实现同等效果的轻量模型方式,在人工智能领域实现了创新。这让国际社会看到中国经济转型的成效与更进一步高科技、高质量发展的可能性。
DeepSeek并没有走20年前依赖数据标记的监督型机器学习之路,也没有走MLP(多层感知器)、CNN(卷积)等神经网络算法架构的“烧钱”之道,而是直接在Transformer算法框架基础实施算法创新。抛弃常用的监督微调(SFT,Supervised Fine-Tuning)和强化学习PPO(Proximal Policy Optimization,近端策略优化算法)架构,在预训练的基础模型上提升算法效率和芯片沟通效率:选择MLA(Multi-head Latent Attention,多头潜在注意力机制)但并不追求最高精度的混合精度训练方式,以及MoE(Mixture-of-Experts,混合专家)实现参数协同,叠加PTX(Parallel Thread Execution,并行线程执行)语言调整芯片之间的通信互联;在后训练的推理模型上放弃初始人工标注、放弃有监督学习,让大模型自身生成思维链并自动迭代后再人工标注;不区分推理模型和基础模型的割裂状态,让推理模型反向改进,去融合基础大模型,实现闭环迭代。
这反映出中国在全球化创新的基础上实现了“人有我优”,走的是开放式创新之路:既遵循GPT(生成式预训练变换器)式的预训练路线,又遵循GPT以强化学习为核心的后训练路线,而不是封闭式的自造之路。杭州深度求索公司是一家民营中小企业,这也反映了中国民营企业的活力、中国民间创新的潜力,证明了中国经济的强大韧性。
现代经济的运行细胞主体是企业。企业在经济活动决策中,可以在人工智能模型基础上结合语言大模型的方式,形成新质生产力。
首先,企业可以利用人工智能分析不同政策情景下的经济和环境影响,为科学决策提供支撑。中央和各级政府形成的文字、图片、数据,可以成为企业的模型资料库,有助于企业决定自身的战略方向。当出现政策逆转的边际变化时,算法模型通过添加“约束”性条件来改变企业目标。而且,经过调整的新数学模型输出的结果,会通过LLM转化为易于理解的政府语言答案,有助于决策者了解企业运行的具体影响。这种方式不仅可以提高政府监督企业产出过程的透明度,还使得政府能够及时甚至提前了解技术性企业是否被有效监管。
其次,企业通过对行业信息建模,实现对行业的把握。企业从全球行业以及中国本土供应链上下游信息中,可以获得海量详尽数据,将数据生成报告,实现对行业中竞争对手的评估,从而进行差异化但又千变万化的产品设计、材料选择。对行业的历史变动进行针对性搜索,对行业历史科学文献深度挖掘,从而预测未来的行业趋势,有助于企业提前规划在行业中的竞争策略。不仅如此,企业可以与供应商、客户、投资者分别建立基于LLM的沟通交互平台,共享数据。在交互中,大模型利用对方的人工查询和交互提问,转换为新的学习资料,对自身的原始模型进行优化,从而可以更好地适应供应商、客户、投资人的具体需求。LLM也可以更有效地与公众沟通,确定新闻媒体对企业产品及盈利水平变化的立场,形成叙事技巧,完成诸如社会责任、公众舆论、社交媒体帖子、科普文章、互动体验问答等。
最后,从内部看,企业可以利用自身的内部数据优化运营。企业内部的细节数据包括能源使用量、新增软件代码量、会议次数、生产数据新增量、企业内部前台与后台的供应链数据等。通过人工智能模型进行能耗测算、知识产权生产评估、员工工作情绪状态捕捉、生产流程对接,企业可以确定供应链前后台的松弛状态,测算潜在的优化空间,提高自然资源和人力资源利用率,降低运营成本。尤其对于有成千上万种细分品类和几万道工序的制造型企业,利用人工智能模型优化调度,可以减少制造足迹,将生产时间缩短或原料耗材缩减。在物流网络规划、设备运行运维、客户服务等方面,精准定位,自动监控设备状况并预测故障,自动生成精确的设备“体检报告”,可以最大限度地减少设备停机时间,确保持续生产。在生产链条上,可以自动读取实时和历史数据,综合分析并给出评估报告及建议。同时,利用LLM智能交互和推理决策能力,可以快速生成满足高实时性和强可解释性需求的内部文档。对产品生产线进行极短时间和高准确度的评估,有助于实时识别质量缺陷,立即纠正,减少浪费,实现迅速又精确的质量控制效果。
总之,企业可以充分利用各种计算模型,融合LLM能力,实现自动化数据处理,还能通过情境学习和生成式输出,助推企业实现经济效益。多模态模型,能够整合政府、行业、员工等多源数据,构建更精准的管理体系与风险预警体系,提高应对不利变化的能力。利用灵活的深度学习模型,填补了传统建模中的空白,在多种异构数据集上使用,大大简化计算成本的同时保持泛化能力,并能让准确性达到前所未有的新水平。企业在各种人工智能模型下得到大发展,则中国经济将更能实现高质量发展。
是否每个企业都需要上线语言大模型,这需要客观评估,防止形式主义做法。
当企业的生产模式较为简单时,通过Excel表格测算即可,没有必要引入复杂的AI系统。对于一些个体户或小中型企业来说,投资于先进的AI解决方案,实际上并不符合投入—产出原则,尤其是在没有做好成本与收益测算的前提下。
大模型本质上是一种概率模型,基于不同数据、报表、场景、模板和计算流程,会得出不同的概率结果,并不是刚性的100%一致和不变,无法提供绝对的确定性。如果不计成本地上线大模型,由于公司的数据量不足,数据不符合大模型训练的基础条件,会导致大模型运行的结果并不有效。
在中国微观经济活动中,企业团队应明白大模型的根本算法原理和能力边界,其实际上的“生成”仍只是高概率下的一种信息结果,不应对其产生迷信和幻觉。如果默认“生成即合理”,不加推演,惰性使用,会让团队的实际处理问题能力变差。
如果因为使用人工智能模型过度控制员工,让员工不再承担责任,或者出现了错误和事故,将责任推给算法模型,认为自己的处理权限完全被算法模型剥夺,则会导致公司员工激励机制出现问题。没有激励动力,就没有人会事先明确指出企业的风险和不确定性,甘愿变为机器人和工具人,不对企业最终盈利和风险负责。因此,企业管理层应公开公司AI系统的运作原理,适度在混合专家(MoE)架构上增加提炼,形成反馈,以便员工了解背后的逻辑,参与公司内部的模型训练,将AI作为辅助工具而不是控制自己的工具,实现岗位价值的最大化。
(作者系北京体育大学管理学院副教授,兼清华大学金融安全研究中心研究员)