首页 > 社科关注

数据驱动多模态语料库建设

2024-08-14 作者：陈雅静来源：中国社会科学网-中国社会科学报

微信公众号

— 分享 —

链接已复制

　　本报讯 （记者陈雅静）8月10日，2024语料库建设与应用研讨会在北京召开。

　　与会学者围绕语料库语言学前沿问题，共同探讨数据驱动下的语言研究、创新应用与未来展望。中国社会科学院语言研究所研究员顾曰国提出，语料库语言学应该从鲜活体验入手，以人为中心，语料库语言学不仅是方法论，更是语言学的重要分支，其终极目标是通过研究语言来理解人。基于此，他提出面向语料库建设的两个命题：第一是语言事实原则，即自然自发语料应该成为语料库的基础；第二是人为终极目的原则，强调语料库的构建需服务于特定的研究目的。

　　随着数据规模的不断扩大，基于语料库的话语分析研究者，面临着如何使用新计算技术处理大规模数据、如何挖掘局部语境中暗藏于命题表面下的态度意义、如何精细分析精密细微组织等一系列挑战。为此，北京航空航天大学外国语学院教授卫乃兴认为，迫切需要改进当前的数据处理技术并完善语言分析工具以解决上述问题。同时，智能分析技术在带来便利的同时也存在算法局限造成的随机性和任意性问题，语言学家始终需要重视真实文本的阅读，并结合具体的研究问题进一步对智能技术进行调试和干预。

　　会议由中国社会科学院语言研究所语料库暨计算语言学研究中心、北京外国语大学中国外语与教育研究中心联合主办。

转载请注明来源：中国社会科学网【编辑：刘娟（报纸）王晏清（网络）】

社科推荐

学科体系

新媒体矩阵

数据驱动多模态语料库建设