大语言模型的局限性及可能的解决策略

2025-12-24 来源:摘自《计量经济学报》2025年第1期

微信公众号

分享
链接已复制

  大语言模型在经济学和金融学研究中的应用逐渐广泛,且能够帮助研究者大幅提高工作效率,但仍然存在诸多局限性及争议有待未来研究解决。结构复杂的大语言模型如何适用于经济金融文本数据的挖掘有待研究者进一步尝试、探索与规范化。相比于传统文本分析方法,大语言模型主要存在以下四个方面的局限性及争议: 

  第一,文本分析结果的可复现性和可解释性有待改善,且可信性和客观性遭受质疑。首先,大语言模型的输出结果通常较为随机,且输出结果通常对人类提示的特定措辞非常敏感。尽管一些大语言模型Open AI的GPT模型提供了用于控制输出结果一致性和确定性的参数,但仍然无法确保结果能够百分之百的复现。大语言模型输出结果的难以复现性和较差的稳健性会使经济学的实证研究面临可信性威胁。其次,目前自然语言处理的发展方向是开发结构越来越复杂的模型,而这些模型的透明度和可解释性越来越低,这一“黑箱”问题比传统文本分析方法更加突出,将成为其应用于经济学和金融学研究中的一大阻碍。再次,一些研究发现大语言模型有时会产生“幻觉”而输出一些错误的分析结果,甚至还具有“欺骗能力”,会对用户产生误导,这将严重影响大语言模型文本分析结果的可信性。最后,一些研究探讨了大语言模型的输出结果是否具有客观性,发现大语言模型具有性别刻板印象和意识形态偏见等信念偏见,这也可能会影响文本分析结果的准确性。 

  第二,可能存在前瞻性偏误问题。在某些预测或测度任务中,由于大语言模型的预训练窗口固定且样本期通常较长,待分析的文本数据的样本期可能会与大语言模型的训练样本期有重叠,从而可能引致前瞻性偏误问题。目前文献中的主流解决方法是,分别报告大语言模型预训练截止点之前的样本内分析结果和截止点之后的样本外分析结果,如果二者没有明显差异,则认为不存在前瞻性偏误问题。 

  第三,对于经济金融领域中长文本的分析能力有待检验。GPT和BERT等大语言模型通常会限制单次输入文本的长度,即会设置上下文窗口的长度限制,从而使其难以对企业年报或新闻文章等长文本进行分析。 

  第四,可能存在隐私泄露问题。经济金融领域涉及大量敏感的客户数据和交易信息,如果这些数据在大模型训练或推理过程中未得到适当保护,可能导致客户隐私泄露,从而引发信任危机、法律风险和经济损失。大语言模型通常需要大量数据进行训练,在集中式训练中,数据会被汇总到单一服务器,一旦服务器受到攻击或模型存在漏洞,敏感信息就可能被恶意获取,增加了隐私泄露的风险。而在推理阶段,用户输入的文本可能包含敏感信息,模型的生成结果可能会无意间引用与特定用户相关的具体数据。 

  针对上述大语言模型所面临的局限性及争议,逐一提出未来的研究重点及可能的解决策略。 

  首先,大语言模型输出的文本分析结果依赖于人类输入的提示,为了提升大语言模型输出结果的可复现性和稳健性,必须确立经济学实证研究中稳健提示设计所依据的一般原则。因此,未来的一个研究重点是:如何根据不同类型的经济金融文本分析任务设计具有针对性的提示框架或策略,使得大语言模型在相应任务上取得更好的分析效果与更稳健的输出结果。未来研究可以考虑进行大量重复实验,获得大语言模型的多次输出结果,并以此为样本进行估计,构建大语言模型文本分析结果的置信区间。此外,在可解释性方面,未来研究应关注如何提高大语言模型生成的词嵌入的经济学可解释性。例如,可借助t-SNE、UMAP等降维技术将高维词嵌入向量可视化,通过二维或三维图表展示词嵌入的分布,直观地观察词与词之间的聚类情况。同时也可以尝试借助或改进一些可解释AI (XAI)技术如SHAP (Shapley additive explanations)等,用于分析词嵌入向量的特征重要性,了解不同维度在词语意义表达中的贡献,并解释词嵌入向量的组成部分以及它们在不同任务中的影响。在未来,研究者也需建立大语言模型输出结果可解释性的评估指标。在可信性方面,为了尽量确保大语言模型文本分析结果的准确性和真实性,未来研究可以尝试构建对大语言模型的响应内容进行真实性核查的工具。 

  其次,为了缓解大语言模型在文本分析任务中的前瞻性偏误问题,未来的研究可以考虑如何实现大语言模型预训练窗口的滚动或递归。当前大多数的大语言模型均采用固定的预训练窗口,这种做法虽能够节省训练时间和成本,但在利用大语言模型对某一特定时段的文本进行分析时,可能会将预训练窗口中未来时段的信息引入分析进而产生偏误。在未来,随着算力不断提高,大语言模型的预训练时间和成本将不断降低,因此可以尝试将大语言模型预训练窗口进行滚动或递归。同样地,Drinkall 等提出的Time Machine GPT(Ti Ma GPT)也为大语言模型的前瞻性偏误问题提供了解决方案。Ti Ma GPT模型是由一系列特定时间点的大语言模型组成的,每个大语言模型都是在特定截止日期之前发布的数据上预训练的,以确保每个特定时点的大语言模型不会包含这一时点之后的任何信息,进而能够实现大语言模型的样本外预测,避免了前瞻性偏误与样本外数据不足的问题。这种做法类似于对大语言模型的预训练窗口进行递归。 

  再次,未来研究应考虑如何在实证研究中检验大语言模型对经济金融长文本的分析能力。一方面,未来研究应尝试构建专门用于评估大语言模型对经济金融文本的分析效果的指标。另一方面,未来研究应在实证研究中对比利用大语言模型对长文本整体直接进行分析的效果与将长文本拆分或截断后再输入大语言模型进行分析的效果有何不同,评估哪种处理方式具有更好的分析效果,探究不同处理方式分析效果的优劣是否会因分析任务和文本的不同而有所差别,进而归纳出利用大语言模型进行长文本分析的适用任务和特定文本。 

  最后,为了有效缓解大语言模型的隐私泄露问题,未来研究可从两个角度思考解决策略。首先,保证预训练文本数据的纯净性。一种直接且有效的方法是利用启发式方法来检测和剔除这些个人信息,如关键词识别。这类方法采用基于规则的方法来过滤预训练数据集中的隐私信息。在文本收集过程中,一旦检测到这些预标注的隐私信息,就会进行替换或直接删除整个文档。其次,保证预训练数据和训练过程的本地化。联邦学习(federated learning)是一种分布式学习(distributed learning or training)方法,它允许模型在多个参与者的本地数据上进行训练,而不需要将数据集中到一个地方。这种方法减少了对中央数据存储的依赖,从而降低了隐私泄露的风险。参与者在本地训练模型并只发送模型参数更新到中央服务器,而不用上传原始数据。这种做法有助于保护数据隐私,并降低数据泄漏的风险。未来研究可以聚焦如何优化联邦学习算法以解决大模型隐私泄露问题。  

  (原文标题:《大语言模型与经济金融文本分析:基本原理、应用场景与研究展望》) 

  (作者单位:中山大学岭南学院) 

【编辑:张征】