本报讯 (记者张清俐)“新升级的‘数字边疆平台’可以更好完成智能文献抽取与预处理,实现对地方志、档案、碑刻等边疆史料的智能标点、实体抽取与时空标签生成,处理效率较人工提升30倍。”山东大学数字人文实验室主任苗威介绍了其团队近期研发的“边疆大模型”智能助手。该系统通过多模态解析、知识图谱构建等核心技术,能够对边疆历史文献进行从数字化到知识化的全流程智能处理。
边疆研究领域长期以来面临多语言混杂、历史文献标注复杂、实体关系多元等痛点。山东大学数字人文实验室基于百万级边疆专题语料库,构建了面向垂直场景的“边疆大模型”。该模型通过引入多任务联合训练框架,在通用大模型能力基础上,强化对边疆地名、民族称谓、历史事件、政策术语等特定实体识别精度,同时攻克了低资源语料的自动标点与分词难题,支持现代汉语与古文的混合文本处理,为边疆文献数字化提供底层技术支撑。
边疆大模型智能助手实现的技术突破,除了可以更好完成智能文献抽取与预处理,还建成包含百万级文献的“边疆历史数据集”和20万实体的“边疆时空知识图谱”;采用本地化部署方案,确保跨境民族语言和敏感历史数据的安全可控。目前,该系统已应用于团队的多个科研项目。
苗威告诉记者,团队依托边疆大模型智能助手,正在筹建“东亚汉籍边疆专题平行语料库”,为服务中国与周边命运共同体的构建提供学术支撑。实验室计划于2025年底开源部分数据和基于边疆大模型的智能应用,并联合科技实务支持主体以及部分高校启动“边疆智能研究协同创新计划”。