党的二十届四中全会审议通过的“十五五”规划建议明确提出,全面实施“人工智能+”行动,以人工智能引领科研范式变革。语音学作为人工智能与人文社会科学交叉的重要支点,在这一时代浪潮中将迎来系统性变革。本文立足“以问题为导向、以数据为支撑、以技术为依托”的基本框架,系统梳理人工智能推动语音学研究转型的内在逻辑与实践路径,探讨语音学发展的新特征与新价值。
以问题为导向
问题导向是学科发展的原生动力,它推动着学术研究不断突破既有框架、回应现实挑战。在人工智能技术迅猛发展的时代背景下,语音学作为一门交叉性与应用性极强的学科,在深入开展本体研究的同时,应积极面向国家战略布局与民生实际需求,主动调整研究重心与方法路径,推动跨学科协作与复合型人才培养,并在基础理论探索与智能技术创新之间建立起更为紧密的连接。
在语言智能领域,语音识别、合成、评测等关键技术要切实解决发展不平衡、不充分问题,进一步提升针对特定群体和特定场景的服务能力。语音识别系统要应对低资源、强噪声、重口音、高变异等带来的识别准确率下降问题;语音合成技术要不断提升自然度和表现力,以生成更具个性化与人性化的合成语音;语音评测技术要构建更科学有效的评价体系,精准评估不同群体、不同层面的发音偏误问题。语音学通过深入研究语音的产生、感知及其声学特性,可以为智能语音技术发展提供理论基础和高质量数据,推动语言智能系统在真实场景中的性能优化与应用落地。
在语言健康领域,面对听力障碍、构音障碍和孤独症谱系障碍等群体面临的语音沟通难题,语音学研究应积极承担起跨学科融合的责任,主动向康复医学、听力言语病理学、神经科学、心理学及人工智能等多个相关领域延伸与协作。这种跨学科的深度融合不仅有助于提升康复服务的科学性、有效性和可及性,也将进一步拓展语音学在社会应用层面的广度和价值,促进理论研究与实际需求的紧密结合,推动形成以个体语言康复需求为核心的多维度、个性化支持方案,最终实现“以人为本”的语言健康支持体系。
在语言教育领域,方言地区、民族地区的国家通用语言文字推广普及工作面临系统性的发音矫正难题。由于母语负迁移及语言环境差异等因素影响,学习者在声韵母、声调、语调等层面常出现系统性发音偏误,亟须构建具有发音评估与实时反馈能力的智能教学辅助工具。这要求语音学研究在关注标准语音的同时,还要深入研究不同方言和民族语言背景下的发音习惯与偏误产生机制,结合语言习得理论,形成有针对性的发音纠正策略。
在语言保护领域,濒危语言和方言的保护工作应从数字化向数智化迈进,其核心目标不仅在于语言资源的静态存档与记录,更在于语言交互、语言行为的数智化复现。传统录音存档方式虽能长期留存语音样本,但缺乏语言交互和使用场景还原等能力。当前,语音学研究可以借助语音识别、语音合成、大数据分析等前沿技术,推动构建功能完善的数字化语言保护平台,实现濒危语言和方言的数智化复现,为保护人类语言多样性提供学术支撑。
这些现实需求不仅加速了语音学研究范式变革,还为其持续发展注入了新的动力和研究空间,将有力推动语音学研究从描写走向解释、从理论走向应用、从小样本走向大数据、从实验室走向真实世界。
以数据为支撑
数据是人工智能时代科研工作的核心要素,其规模与质量直接决定了科研成果的学术价值和应用前景。语音学研究应突破实验数据在人群覆盖、场景覆盖和模态覆盖等方面的局限,逐步构建起“多群体、多场景、多模态”的数据体系,从而推动研究从假设驱动向数据驱动转变,为研究范式的深刻变革奠定坚实的数据基础。
语音学研究应广泛覆盖多元化的言语群体,包括听力障碍患者、构音障碍患者等特殊生理人群在内的不同地区、不同年龄阶段的人群。考察不同群体的语音特征,不仅能填补语音多样性方面的研究空白,更能为语言健康、语言教学以及语言服务提供有针对性的数据支撑,助力实现“提高人民生活品质”的发展目标。
语音学研究应建立起以自然场景为主、实验室环境为辅的语音数据采集模式,逐步提升生活化、多样化语音语料在总体数据中的占比,以更全面、真实地反映人类语音使用的实际状态与复杂性。回归生活场景的研究导向,不仅能够极大丰富语音学研究的数据对象和语境类型,更有利于深入揭示人类在日常交际中的语音行为机制与认知过程,从而显著增强语音研究的场景效度、生态效度与应用潜力。这种以真实需求为驱动的研究路径,将推动语音学研究更加贴近实际应用场景,促进人工智能等前沿技术“全方位赋能千行百业”,实现从理论研究到产业落地的良性循环。
语音学研究应全面整合声学、生理、感知等多维度信息,构建统一协调的多模态数据体系,以系统把握语音产生、传播与感知的复杂机制。语音的产生与感知是多维度生理活动与高级认知处理过程的综合体现,仅凭单一声学参数往往难以全面、深入地揭示其内在运作机理。要推动语音学研究从表层描述走向深层解释,必须进一步提升多模态数据的同步采集能力,发展有效的跨模态数据融合与计算分析方法,构建理论驱动与数据驱动并重的研究范式,从而切实推动该领域的科学纵深发展与实际应用转化。
以技术为依托
技术创新是研究范式变革的核心引擎。语音学研究应从数据处理、规律挖掘到结论验证全流程深度融合人工智能等前沿技术,形成“人工智能+”的人机协同新方法,实现从经验描述到精准建模的跨越。
人工智能将深刻改变当前语音学“手工操作”的低效研究模式,实现数据处理的自动化与精准化。在数据预处理环节,预训练语音模型可以辅助研究人员完成音频切分、端点检测、话者分离、噪声抑制等基础任务。在数据标注环节,人工智能系统可以帮助实现音段标注、韵律边界识别、情感分类等标注任务,提升数据标注效率,降低标注成本。在特征提取与分析环节,深度学习模型能够协助挖掘数据中隐藏的语音特征及其变化规律。同时,大数据技术能够大幅降低研究者的工作负荷,消除人工操作的主观偏差,提升语音数据质量和建设规模。
人工智能将推动语音学研究从传统的统计描述转向更加精准的模型预测,提升研究的科学性与系统性。通过引入机器学习、深度学习等方法,研究者能够构建更符合真实语音产生与感知过程的计算模型,从而实现对语音规律的深度挖掘与系统分析。这些研究不仅有助于揭示语音产生和感知的内在生理与神经机制,还能够深化对人类语音本质的理解,进而为语音合成、识别、评测等应用提供坚实的理论基础,推动语音交互等相关人工智能技术的持续创新与发展。
人工智能将推动语音学研究突破传统小样本验证的局限,通过引入机器学习与深度学习算法,研究者能够构建更加复杂且适应性强的大规模语音数据处理模型,从而建立起系统、高效的交叉验证体系。这一体系依托大规模语音数据,不仅能够有效捕捉隐藏在数据背后的语音变化规律,还能够显著提升研究结论的泛化能力,以解决传统“小样本”研究难以克服的“外部效度不足”问题。
总之,人工智能等前沿技术的融入,不仅极大拓展了语音学的研究边界,也推动该学科逐步从以小样本、控制实验为主导的传统研究范式,转向以大规模数据和复杂计算模型为支撑的新范式。这一转变不仅有利于提升语音学研究的广度和深度,也有利于重构其学科体系与学术体系。更重要的是,通过研究范式变革,语音学研究能够更加直接地对接国家战略与民生需求,在多个应用层面展现广泛而深远的价值,如服务语言教育、助力语言健康、推动语言保护、支撑语言智能等,从而在学术与社会双重维度发挥重要作用。
(作者系中国社会科学院语言研究所语音研究室主任、研究员)