目前,已有十多款AI辅助质性研究的数据分析产品问世。随着大语言模型的出现,质性研究的自动分析技术得到了强有力的支持。然而,对于将大语言模型应用于质性研究,一些人提出了理论上的质疑和技术上的担忧。第一,大语言模型在数据处理方面的可解释性和数据偏见问题。有研究者认为,大语言模型的内部工作机制相对复杂且不透明,使得人们难以理解模型如何得出某些结论或生成某些文本。这种“黑箱”性质可能会影响研究的可信度和可重复性。此外,大语言模型的训练数据可能包含各种偏见,这些偏见会反映在模型的信息输出与训练环节中,对质性研究的结果产生影响,导致不公正或偏颇结论的出现。第二,分析结果的准确性和可靠性问题。有研究者发现,大语言模型有时会生成不准确或虚构的内容,这会严重干扰质性研究结论的准确性。虽然近期的检索增强生成(RAG)架构可以缓解这一问题,但尚未完全解决。第三,人类研究者角色的削弱。质性研究强调以研究者自身作为研究工具,研究者沉浸到研究的问题情景中,通过研究者的体验来理解与解释问题。随着自动化工具的使用,研究者可能会依赖这些工具进行分析,减少对数据的深入思考和洞察力,从而影响质性研究的创新性和独特视角。接下来,本文希望结合这些疑虑与担忧,逐一论证大语言模型应用于质性研究的可能性。
大语言模型可以成为质性研究的工具
有关可解释性与数据偏见等技术伦理方面的质疑,实际上并不是大语言模型本身的问题,也不是质性研究才可能遭遇的困难。研究者无论是依靠自身的知识体系还是依靠大语言模型来分析质性研究的数据,都会面临结果的可解释性、数据偏见等技术伦理问题。因为与量化研究一样,质性研究也是一个将个体体验转换成公共知识的过程。这种转换所依持的向导正是来自人类的总体知识共识。具体的研究者在其中产生的影响始终是一个个体化的活动。在研究者用公共语言公布他的研究结论之前,其他人是不能对他所经历的个人体验做出解释的。也就是说,造成可解释性困难的“黑箱”并不是大语言模型的独有特征,而是个体体验向公共知识转换所必经的路径。与人类相比,大语言模型的训练时间更短,并且具有更明确的可控制性条件,免除了遗传、环境、社会文化等不可控因素的干扰,因此探索人类的“黑箱”所面临的困难远远大于对大语言模型“黑箱”的探索。毕竟,大语言模型“黑箱”的底层逻辑是明确的,而人类心智“黑箱”的底层逻辑仍然是当代认知心理学家正在努力探索的议题。
同样地,既然研究是从个体体验出发的,那么个体所拥有的知识与公共知识之间的偏差总是存在的。与人类研究者相比,大语言模型更能在数据偏见方面做出有效的纠偏控制。因为与人相比,大语言模型可以快速更新知识库以适应不同研究课题的要求;大语言模型也拥有比人类个体更庞大的知识库。这两个特征都是有效降低数据偏见的重要条件。因此,对于大语言模型数据可解释性以及数据偏见等问题的担忧,并不会阻碍它成为质性研究的有效工具。
大语言模型执行质性研究的技术过程
对大语言模型在分析结果的准确性方面的担忧,其实是围绕分析技术与技术规范是否耦合的考量,即大语言模型能否实现质性研究的技术过程。我们可以通过大语言模型的底层逻辑与质性研究的技术规范的对比,发现两者之间存在操作性的耦合。这种耦合支持了大语言模型在质性研究过程中的运用。
以ChatGPT为例,它的底层算法是基于深度学习的递归神经网络(RNN)和长短时记忆网络(LSTM)等技术;通过基于Transformer的编码器—解码器结构,将输入文本编码成一个向量,再根据该向量计算生成反应结果。其中RNN模型的输出和状态的计算公式是:
ht=f (Uxt+Wht-1)
yt=g(Vht)
其中,xt是当前时间步骤的输入,yt是当前时间步骤的输出,ht是当前时间步骤状态,U、W、V是需要学习的网络参数,f和g是激活函数。可以看到,当前时间步骤的状态ht是由当前时间步骤的输入xt和上一步的状态ht-1共同决定的,这样就可以将先前的输入信息纳入当前时间步骤的状态计算中,从而影响后续的输出。这种循环结构使得RNN模型非常适合处理序列结构性数据。
大语言模型的基础计算逻辑耦合了质性研究的技术规则。例如,质性研究中的编码过程需要将文本数据转化为结构化的编码和主题,而大语言模型通过自注意力机制和深度学习算法,可以自动完成这一过程。这种自动化的编码能力不仅提高了研究的效率,还能确保编码过程的一致性和准确性。质性研究经常会涉及长时间序列的数据,如访谈记录、文本分析等。大语言模型可以通过递归结构和长短时记忆网络,有效捕捉文本数据中的长期依赖和语义关联,从而实现对质性数据的深度分析。Transformer架构通过自注意力机制,可以并行处理输入序列中的各个元素,并在生成过程中动态选择重要的上下文信息,从而提高模型的效率和准确性。这种技术使得大语言模型在处理大规模质性数据时表现出色,并能在短时间内完成复杂的数据分析任务。
总之,通过大语言模型的算法与质性研究的技术规则之间的对比,我们不难发现,大语言模型强大的文本处理和分析能力,能够有效地满足质性研究的技术要求。在数据收集、整理、编码、分析和结果生成等各个阶段,大语言模型都能够提供有力的技术支持,提高质性研究的工作效率和分析的准确性,为研究者提供了一种高效的新型质性研究工具。
人的主体性与意义生成问题
质性研究强调研究者自身的主体性介入对研究结果的贡献。因为研究者以主体身份的介入,才让研究结果能够表征“人的体验”的意义。对于质性研究者来说,这是质性研究区别于量化研究的核心所在。正是基于这样的评判,质性研究者倾向于否认大语言模型在质性研究过程中的可能价值,因为大语言模型是基于程序化的计算来处理语言符号而不是进行意义生成。
在大语言模型与人的互动中,围绕“人的主体性”这个问题的讨论也可以表述为另一个更直白的话题,即“大语言模型是否有意识”。如果大语言模型有了意识,那么它也可以以一个意识主体的身份介入研究过程。尽管不少与大语言模型有过深入互动的人会以为大语言模型已经“具备了意识”,但是在专业人士严格的评判标准看来,对大语言模型的意识问题还不能有明确的肯定意见。尽管如此,大语言模型的参与并不会减少研究者个人在质性研究过程中的主体性表达。
譬如,人类创造了汽车、飞机等可以高速移动的工具,极大地改变了日常出行的方式,但这些工具并没有改变人类自身的行走、跑步和跳跃等以人为主体的活动。相反的是,人类制造工具的速度越来越快,测量速度的精确度也越来越高。于是,今天我们可以在1/1000秒的水平上评估一个跑步者的速度。因为技术的进步,人类对自身速度极限的认识也更加精准。类似地,一个高度模拟人类主体性的大语言模型的出现并不会威胁人类主体性,通过与这个“对象”的互证与观照,人类反而能够更准确地定义与把握自身的主体性意义。在这个意义上,大语言模型参与质性研究不会干扰研究者在其中的主体性,就像我们可以搭乘汽车、飞机旅行,但不会影响我们作为生物个体拥有跑步、跳跃的能力一样。
质性研究的核心任务是意义生成,即通过对数据的分析和解释,以及研究者与研究对象之间的互动、研究者自身的主观性、研究背景和文化语境等复杂关系的分析,从现象中形成意义建构。在这个过程中,研究者的主体性具有关键作用。研究者通过自身的视角、经验和知识体系,对数据进行解读和阐释,生成具有深度和广度的研究结果。那么,大语言模型有可能代替人类研究者实现意义生成吗?从符号学的角度看,语言即意义。语言作为符号系统,通过能指与所指的关联生成意义,并通过文化和社会的互动,不断建构和传播新的意义。大语言模型通过生成语言而建构了意义,从而实现了质性研究的最终目标。
综上所述,大语言模型在质性研究中的应用不仅具有技术上的可行性,还能够显著提高研究的效率和质量。通过自动化数据处理和分析、促进研究者的反思与创新、提高研究结果的可靠性、支持多种研究方法以及跨学科的应用与整合,大语言模型为质性研究提供了强大的技术支持和新颖的研究方法。
(作者系绍兴文理学院大脑、心智与教育研究中心教授)