古汉语大语言模型“AI太炎 2.0”正式发布,将显著提升古籍整理的效率与精度

2024-09-05 来源:中国社会科学网

微信公众号

分享
链接已复制

  中国社会科学网讯(记者 段丹洁)8月27日,北京师范大学古汉语大语言模型“AI太炎2.0”发布会暨数智时代应用语言学学科建设路径与方法座谈会在京举行。

  “AI太炎”是国家语委重大项目“古籍整理智能化关键技术研究”的核心成果,是专门适用于古汉语文本理解的大语言模型。该模型是针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建的专门适用于古汉语文本理解的大语言模型。通过合理的模型设计、数据处理、基座训练及微调,仅使用1.8B参数量即可取得较好效果。该模型具有较强的古典文献释读能力,支持词义注释、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务,且兼容繁简中文输入。此外,在辅助古籍整理、辞书编纂和语言研究等方面,该模型也表现出了很大的应用潜力。

  教育部语言文字信息管理司司长刘培俊说,大语言模型技术可以大幅提高古籍整理研究效率,可望为普及推广国家通用语言文字、传承弘扬中华优秀语言文化、世界共享中国特色语言文明提供语言智能技术支持。

  北京师范大学常务副校长王守军认为,人工智能为人文学科带来了前所未有的机遇与挑战。前沿科技成果“AI太炎”将显著提升古籍整理的效率与精度,对于传承弘扬中华优秀传统文化来说具有重要意义。

  北京大学中国语言文学系系主任杜晓勤谈到,近年来,AI古典文献释读能力的进步,极大推动了传统学科在新时代的发展,期待这一创新成果进一步促进中国语言文学学科的繁荣与进步。

  北京语言大学教授华学诚说,“AI太炎2.0”古汉语大语言模型标志着汉语言文字学学科现代化和科学化的转型升级。推动语言文字学的守正创新,展现了中国学人的学术担当。

  据悉,“AI太炎”1.0版于2023年11月进入内测阶段,学术科研、基础教育、编辑出版等不同行业领域的4000余名用户参与内测,为模型改进提出了宝贵建议。研究团队在此基础上对模型进行了持续迭代优化,并发布了该模型2.0版,以期更好地助力古籍整理、文言文教学和古汉语信息处理研究。

转载请注明来源:中国社会科学网【编辑:齐泽垚】