中国社会科学网讯(通讯员 万波)在以ChatGPT为代表的大语言模型迅猛发展的当下,第一届古代汉语机器翻译研讨会近日在澳门大学成功举行。作为机器翻译峰会(MT-SUMMIT2023)的子会议,此次研讨会主要围绕古汉语机器翻译评测EvaHan展开,由南京农业大学信息管理学院教授王东波携手南京理工大学经济管理学院副教授沈思,南京师范大学文学院教授李斌、副教授冯敏萱、副教授许超等学者共同组织。本次研讨会是EvaHan的第二年评测会议,旨在推进古代汉语机器翻译研究,通过评测竞赛和会议研讨,推动古代汉语自然语言处理技术的发展。会议吸引了近百位学者线上参加,二十多位学者线下参加。
EvaHan评测由李斌和王东波于2022年共同发起,旨在促进古汉语信息处理研究。2023年,EvaHan2023专注于古代汉语到现代汉语和英语的机器翻译评测竞赛。评测所提供的语料和基座模型来自王东波主持的国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”,其中SikuBERT预训练基座模型基于五亿字《四库全书》构建。精加工训练语料选自先秦典籍、二十四史以及《资治通鉴》的双语数据,包含了“古汉语-现代汉语”30万句对,“古汉语-英语”5900句对;测试语料选自江苏文库提供的《金楼子》和《后山谈丛》。语料构建过程中得到了国家图书馆副研究馆员马学良在版本、目录和文献学方面的支持和指导。EvaHan2023共有22个参赛队伍报名,最终收到了9份翻译结果,收录了8份技术报告。其中来自华南理工大学和香港中文大学的两支队伍表现最优,表明了本次会议对于古文机器翻译研究的切实推动作用。
第一届古代汉语机器翻译研讨会近日在澳门大学成功举行。图为会议向获得一等奖的华南理工大学团队颁奖。 通讯员/供图
教育部语言文字应用研究所研究员、新疆大学教授冯志伟作主旨报告。冯志伟以他六十年学术研究和多种语言学习经历为引子,回顾了机器翻译的发展历程,强调了古汉语机器翻译在传承和弘扬中华优秀传统文化中的重要价值。北京大学软件与微电子学院教授俞敬松作题为“古籍整理加工与出版研究平台的研发报告”主旨报告。他通过介绍其构建的古籍智能信息处理系统,围绕古汉语的OCR识别、自动标点、自动分词和机器翻译等问题进行讨论,并对他们团队的系统功能进行细致的展示。王东波代表会务组介绍了本次古汉语机器翻译评测的详细情况,宣读了会议测评的研究报告,分析总结了本次评测的参赛结果。从评测结果可以看出,古汉语机器翻译目前主要在“古-现”翻译中取得了明显的效果,但在“古-英”翻译中还有大量的问题值得关注和解决,这其中的一大问题是训练语料的质量和规模,“古-英”双语语料库建设将是未来学术工作的重点。
会议期间,来自北京大学、华南理工大学、香港中文大学、中国科学技术信息研究所、北京理工大学、南京大学、上海理工大学、南京中医药大学的八支参赛队进行了口头报告。针对机器翻译结果,结合当下迅猛发展的大语言模型技术,线下线上参会者进行了充分而热烈的探讨,并对下一届研讨会的主题和古文机器翻译的未来发展进行了展望。