人工智能的快速发展和广泛应用使语言学研究步入新的阶段,方言研究也随之焕发新的生机。人工智能可以有效帮助人们识别方言,甚至学习不同地区的方言。不过,人工智能在推动方言研究发展的同时,也存在一定局限性。对此,要综合语言学专业知识和人工智能技术,使之互补融合、协同发展。
应用举隅
人工智能在语音识别、合成与翻译等领域已得到广泛应用,众多语音识别、合成与翻译软件不断涌现,很多方言也被纳入其中。比如,中国电信星辰超多方言语音识别大模型能够同时识别理解粤语、上海话、四川话、温州话等30多种方言,广泛应用于智能客服等领域。微信的语音输入已支持对粤语的识别,实现了粤语向普通话的翻译。讯飞听见具备将语音实时转换成文字的功能,支持多种语言和方言的识别,并且还配备了翻译功能。讯飞输入法内置202种方言语音识别能力,借助讯飞星火语音大模型的语音合成技术,可以听到各地方言的表达。2019年,厦门大学中国语言文学系的许彬彬团队携手洪青阳科研团队成功研发出闽南方言人工智能语音系统,由世界晋江青年联谊会推出的“说咱闽南话”应用程序正是搭载了这一人工智能语音系统。该应用程序具备高度精确的方言识别能力,能够辨识闽南方言不同地域方言及其多样化的口音特征。此外,它实现了语音与文字之间的无缝转换,以及普通话甚至英语与闽南方言的双向互译,搭建起沟通与交流的桥梁,为文化对话开辟了新途径。闽南地区拥有丰富的旅游资源,而作为“古汉语活化石”的闽南方言对于非闽南方言区的中国人而言往往较难理解,遑论外国游客。而有了闽南方言人工智能语音系统,各地游客就可以轻松实现与当地居民的交流,了解当地的历史和文化,从而更加深入地体验闽南的风土人情。
在方言研究领域,人工智能技术的应用可以使研究者更便捷甚至深入地了解方言词汇,包括其发音、意义、用法,甚至是起源和发展。比如,在闽南方言研究中,人工智能可以通过分析大量闽南方言语料库,识别并提取出闽南方言词汇特征,如词汇结构、类别和用法等,从而有助于理解闽南方言词汇的构成规律,并且还可以辅助研究者进行方言历时演变的研究。人工智能的应用推动了不同学科研究方法的交叉使用,可以帮助研究者提高研究效率。以往,方言地图的绘制需要依靠大量人力去实地考察、记录和整理数据。这一过程不仅需要耗费大量时间和精力,而且容易受到主观因素干扰,从而影响结果的精确性。而借助人工智能技术,研究者只需要输入相关的方言数据,就可以自动生成所需的方言地图,不仅提升了研究效率,还降低了人为因素带来的误差。人工智能在地理语言学领域的应用,为语言资源的深度开发提供了更多可能性,同时也为方言资源的保护与开发提供了强有力的支撑。此外,人工智能提供了新的研究方法和视角。比如,实验语音学借助人工智能技术可以对方言语音进行更为精细化的分析,包括音高、音长、音强、音色等语音四要素的定量分析与对比研究。这不仅有助于揭示方言间的声学差异,还能深入探索语音演变的规律。借助自然语言处理技术,可以高效处理语料库中文本的自动分词、词性标注以及句法结构的分析,提升数据处理的效率与精确度。
未来展望
方言语音识别种类与覆盖区域有待增加。虽然闽南方言的语音识别已取得一定成果,但其他诸多方言的识别进程仍较为缓慢,这极大限制了方言研究的广度和深度。比如,在当前的方言语音识别系统中,客家方言的识别率普遍较低,可识别的词汇和句子种类也相对较少。在方言语音合成领域,某些方言的处理仍面临挑战。以苏州方言为例,苏州方言有31个声母、41个韵母以及7个声调,其语音特征表现出高度的复杂性和多样性。在语音合成过程中,人工智能需要准确模拟苏州方言的发音特点和语调变化,这需要大量的语料数据和精细的算法设计。目前的方言语音识别、合成与翻译等,往往只在局部方言区得到使用,而难以真正实现各种方音全部涵盖。因此,为促进方言语音识别、合成与翻译等技术的发展,应进一步加强方言语音资源的搜集和整理工作,以提高方言识别系统的准确率和覆盖率。
方言研究的数据化资源支持有待提高。人工智能依托于大规模的数据模型,而方言数据的不足会导致研究者难以全面、准确地了解方言的多样性和复杂性。方言类型多样,流传时间久,但方言资源大规模的系统性记录却很晚才开始,且方言点的采样依旧不够完善。目前学术研究涉及的只有“中国语言资源保护工程采录展示平台”属于系统性采集。研究者在探索方言的演变规律、特点以及与其他方言的异同点时,缺少足够的数据支持。此外,数据库的匮乏亦可能引发方言研究的偏颇性和主观倾向。由于数据资料的缺乏,研究者只能依据有限的语料进行推断和分析,这可能导致研究结果的片面性和主观性。同时,缺乏数据支持的研究也难以得到广泛的认可和验证,从而影响了方言研究的科学性和权威性。此外,数据化资料的缺乏限制了方言研究的现代化手段应用。在人工智能背景下,大数据分析等技术逐渐成为语言研究的关键工具。然而,受限于方言数据库的匮乏,这些技术难以在方言研究中得到广泛应用。比如,在方言语料库的建立上,由于缺乏足够的原生方言语料数据,方言语料库建立困难,方言的语音、词汇和语法研究也因此受到了限制,影响了方言语音技术的实际应用效果。对此,应加强方言数据的收集和整理工作,建立更加完善、系统的方言数据库,为方言研究提供有力的数据支持。
应用于方言研究的人工智能技术有待进一步发展。目前的人工智能技术尚无法处理语言交际中一些涉及语气和情感的难以形式化或规则化的语音、词汇或语法单位。尽管在方言研究方面人工智能发挥了很大作用,但也存在一定的局限性,研究者不能完全把方言研究交给人工智能。在方言的语音分析中,人工智能技术可以精确测量和比对方言的语音参数。然而,语音往往受语境、情感等因素的影响,这些复杂因素是人工智能很难捕捉和分析的。比如,闽南方言的连读变调受到复杂的语法规则、语用功能的控制,则难以让机器理解和生成。再如,温州方言中的“争”字,表示“争取”意义时是阴平调,表示“争夺”意义时是阴上调,表示“争论”意义时是阳上调。这种语调的微妙变化,需要根据上下文语境具体分析,只有当地人或对该方言很熟悉的人,才能真正把握。而人工智能在处理这方面的问题时,由于尚无法充分理解这些方言音韵的内在规律,也就无法很好地应对。此外,方言作为语言的一种变体形式,承载着特定地域的文化与历史传承,方言往往承载着当地人民独特的生活方式和情感。以闽南方言“趁食”和粤方言“揾食”为例,它们描绘人们为了生计找工作谋生路不断奔波的情景,展现了勤劳和坚持不懈的精神。这两个词语如果从字面义理解(“趁”是“赚”的意思,“趁食”的字面义是“赚吃的”;“揾”是“找”的意思,“揾食”的字面义是“找吃的”),可能会使人误解为与实际内涵相反的意思,这种复杂的情感与语境是人工智能难以完全理解的。因此,鉴于目前的发展程度,在进行方言研究时,研究者暂时只能将人工智能视为一种辅助工具,发挥其检索和分析的能力,以确保研究的科学性和准确性。
总的来说,人工智能带来了方言研究的新发展,但在深度和广度上仍存在不足。因此,语言学研究者还需对方言的各个领域进行深入探索,全面收集足够丰富的方言数据,推动方言研究的进一步发展。只有如此,在人工智能带来方言研究发展的同时,方言研究才能为人工智能的发展提供正向反馈。人工智能与方言研究的协同发展,或许能够为自然语言及人工语言的研究与应用带来更多可能。
(作者系华侨大学文学院教授)