近期,国产AI大模型DeepSeek受到了海内外广泛关注,它不仅在性能上可比肩ChatGPT等头部AI大模型产品,而且训练成本相比传统AI大模型节省了约96%。使用了中文语料进行训练的DeepSeek不仅具备展现逻辑推理过程的“深度思考”模式,还加入了“联网模式”以实时更新数据库,使得生成内容更智能、更准确和更懂中文用户。DeepSeek的创新技术和新型功能给AI行业带来了惊喜,但也存在着相应的侵权责任风险。
“蒸馏技术”引发的侵权责任挑战
DeepSeek之所以能够高效率和低成本地训练模型,一个重要原因是采取了模型“蒸馏技术”(Distillation)。“蒸馏”的过程通过从性能强大、数据丰富的教师模型中提取输出数据样本,由学生模型模仿教师模型的运算逻辑,并利用监督微调技术(SFT)、强化学习技术(RL)来不断校准和验证输出结果、优化计算结构,最终使学生模型在参数量减少逾90%的情况下,仍能保留教师模型90%以上的性能表现。然而,“蒸馏技术”不仅颠覆了传统大模型从零训练数据的原始方案,也与开源替代、新增差异化模块等简单“做加法”的方案存在很大的区别,“蒸馏”极为依赖教师模型,通俗来讲就是对教师模型的优化甚至“拷贝”。这不禁引起我们的思考:将他人研发的大模型用作自家大模型训练、辅助决策的工具,这究竟构成合理使用还是侵权?
一方面,虽然“蒸馏”技术本身并不违法,但在某些情况下可能引发侵权纠纷。在未取得合法授权的情况下,学生模型优化、改良教师模型的行为有可能构成侵犯他人复制权、改编权等权利,还可能构成《反不正当竞争法》中的“搭便车行为”以及侵犯他人商业秘密的行为。即使学生模型取得了教师模型的合法授权,由于“蒸馏技术”借助他人模型来输出生成数据并开展标注作业,这意味着需依赖既有的教师模型来生成数据标签,此类数据不再是原始数据而是衍生数据,若利用数据的行为超出了授权范围,仍然可能会侵犯教师模型开发者、提供者的一系列数据权益。当然,目前没有任何证据显示DeepSeek存在“非法蒸馏”行为,并且OpenAI采取闭源策略,其推理过程是隐形的,指控DeepSeek通过蒸馏技术获取其内部数据纯属无稽之谈。
另一方面,“蒸馏技术”还可能引发对外共同侵权中的责任承担问题。由于监督微调技术并不需要洞悉教师模型的具体运算过程,“蒸馏”过程中的强化学习奖励机制具有不确定性,加上学生模型本身的误差形成了“双重黑箱”。因此,当学生模型生成了虚假信息、有害信息等侵权内容时,很难对侵权内容的来源以及生成机理进行追溯,究竟是学生模型学艺不精还是教师模型错误教学导致侵权不得而知。此时,若要求教师模型与学生模型承担连带责任,对于教师模型而言肯定不公正,毕竟教师模型并未直接生成侵权内容,否则有违自己责任的基本法理。对此,出于激励技术改良和进步的目的,并且依据侵权法中的“报偿理论”,由学生算法对其输出的侵权内容单独承担责任更具有合理性。
联网增强模式下的侵权责任风险
大数据模型分为纯离线模式、联网增强模式与混合架构模式。此前,大多数主流的大模型如ChatGPT-4、Claude等默认不具备实时联网生成功能,它们的知识主要依赖训练时吸收的离线数据库。而现在,DeepSeek、Kimi智能助手、文心一言等大模型均加入了自带实时联网生成功能,可以供用户自主选择,OpenAI也将订阅才能支持的ChatGPT Search(联网搜索)功能面向所有用户开放。然而,训练大模型所需要的大规模、高质量、多模态数据集,通常是从各个领域和多个数据源收集的。这些数据来源繁杂且内容混杂,如果不经解析、清理和筛选,不仅会对模型性能的提升造成障碍,还有可能不分真假好坏地收集信息,更容易生成具有危害性的内容,而实时联网生成功能很难迅速、高效地过滤掉数据中的“杂质”。
从性质上看,DeepSeek等大模型提供者同时具有网络服务提供者、网络信息内容生产者、大模型训练者、个人信息处理者等多重身份,既需要对前端训练数据的质量和合法性负担注意义务,也需要对后端生成内容承担信息治理义务。一方面,根据《生成式人工智能服务管理暂行办法》规定,生成式人工智能服务提供者有义务使用具有合法来源的数据和基础模型,采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性,从前端确保生成内容不违反法律法规的要求。DeepSeek自带实时联网生成功能供用户选择使用,在数据处理流程中对原始数据的清洗精度与广度存在天然局限,难以确保完全剔除不良信息。此种背景下,DeepSeek作为大模型提供者有义务构建一套可靠高效的数据实时过滤机制,保证实时联网模式下大模型的稳定性和可靠性。
另一方面,DeepSeek实时联网生成功能依托在线网络抓取信息,具备显著的时效性和实用性优势,却也陷入信息更新过快导致真实合法性受质疑的泥沼。基于此,大模型提供者需承担如下义务:一是链接义务,向用户展示使用的所有搜索链接网页,同时在生成内容的各个部分附上对应的链接,方便用户知晓生成内容的来源素材。二是提示义务,以醒目、突出的方式向用户附上明晰、无歧义的免责声明,提醒用户利用该功能生成的内容有潜在风险,可能存在敏感、虚假、有害等信息,以便共同预防和制止侵权行为的发生。三是救济义务,大模型提供者还必须设立多元、便捷、畅通的反馈与投诉路径,配套高效的响应流程。一旦接获侵权通知,应当及时对涉事侵权内容采取停止生成、停止传输、消除、模型优化训练等措施,确保大模型不再生成侵权内容。
推理可视化功能带来的侵权责任难题
深度思考模式是DeepSeek的重要技术特色之一,旨在通过模拟人类认知过程,提供更精准、连贯且富有逻辑性的输出,并且会向用户展示大模型的逻辑推演过程。这使得DeepSeek更加智能和人性化,可降低算法不透明带来的信任问题,但也不可避免地引发一个传统大模型未曾遭遇的困境,即在生成侵权内容的情况下,这样的推演过程可能会成为主动暴露的侵权证据。
一方面,深度思考模式通过多层级推理生成更“拟人化”的输出,其逻辑链条可能更接近人类专家的表达方式,若训练数据中包含未授权的版权内容(如书籍、论文、代码、图像等)或者其他侵权内容,而生成内容又恰好与之相似,无疑会增加侵权概率。与此同时,当前对大模型生成内容的权利归属仍存在争议,若用户基于暴露的逻辑推演过程二次创作衍生作品,可能引发权利链条断裂。而根据《著作权法》等相关规定,独创性判断标准在人类与人工智能协作场景下尚未明晰,大模型提供者还可能因“实质性相似+接触可能性”原则承担共同侵权责任。这些以往很难被证明的内容极易通过深度思考功能被展示得一览无余,由此增加大模型提供者承担侵权责任的风险。
另一方面,虽然深度思考下的推演过程属于一种“中间结论”而非正式生成文本,但仍有可能被视为生成内容的一部分,并且推演过程可能比最终生成内容更详细。因此,推演过程展示也应当构成生成内容,需要与最终结论承担同样的合规义务。不仅如此,相较于正式生成文本部分,深度思考模式在处理多源数据和展示推理过程时,可能更容易引用未经授权的版权内容或者其他侵权内容,而且多模态支持可能涉及图片、视频等各类素材的使用,进而增加侵权风险的预防难度。因此,大模型提供者应当针对深度思考模式下的推理过程建立敏感信息实时过滤机制,对多模态输入进行合法性校验,避免推演过程引发侵权或成为证明侵权的直接证据。
(作者系西南政法大学民商法学院教授)