北京语言大学推出新一代BCC汉语语料库

2026-03-18 来源:中国社会科学网-中国社会科学报

微信公众号

分享
链接已复制

  中国社会科学报讯 (记者陈雅静) 3月15日,北京语言大学举办语料库建设研讨会暨BCC 2.0发布会,正式推出新一代BCC汉语语料库。BCC 2.0语料库在数据、引擎、服务三个维度完成全面升级,实现了汉语语料的多维度全覆盖,为语言学研究、教学实践及大模型研发提供了更优质的语言数据支撑。

  北京语言资源高精尖创新中心主任、北京语言大学语言智能研究院院长荀恩东表示,在大模型时代,语料库与大模型并非替代关系,而是互补共生的重要语言数据形态。大模型是语言大数据的参数化压缩,而语料库是语言生活的显性化采样,具备可验证性、精准化、可复现性等独特优势,能够为大模型的评测、优化、安全检测提供重要支撑;同时,大模型也能赋能语料库的自动标注、智能检索等工作,二者的融合发展为语言学研究开辟了新路径。

  BCC语料库是国内外最大的汉语在线语料库,是汉语语言学研究的重要数据基础设施。北京语言大学国际中文教育研究院副研究员饶高琦介绍,此次发布的BCC 2.0语料库总字数约62亿字,首次开放了多领域的字表、词表及频次数据,所有数据均支持可视化查看与下载。

【编辑:许可(报纸) 胡子轩(网络)】