随着数字时代的到来,知识以前所未有的速度日益增长、交叉融合与广泛传播。互联网的普及与学术数据库的完善,为知识挖掘提供了海量文本数据资源。学术文献、专业书籍、研究报告、课程资料等电子文本广泛存在且易于获取。传统的人工阅读提炼的知识整理方式,在海量数据面前越发力不从心,既存在数据抽样的偏颇,也存在肉眼阅读主观评价导致挂一漏万的嫌疑。学科标识性概念提取、概念分类、关系网络构建、范式演变分析等,都需要更为精准、高效且智能的方法。文本挖掘,又称文本数据挖掘,是从海量的非结构化或半结构化文本中提取通过常规手段获取不到的高价值隐含信息的过程。该技术能够助力完成概念体系、理论体系、方法体系和应用体系建设的目标任务。概念体系建设旨在梳理学科核心概念及其关联,理论体系建设的目标是整合与完善理论知识,方法体系建设着重于优化和创新研究方法,应用体系建设关键在于将学术知识应用于实际场景。面对数字时代的挑战,文本挖掘技术能够成为突破困境、推动知识体系建构的关键力量。
技术基础
文本挖掘技术结合自然语言处理(NLP)、机器学习、统计学和数据挖掘等,主要任务包括文本预处理、特征提取、文本分类、文本聚类、情感分析、实体识别、关系抽取、主题模型等。基于建构知识体系关键任务的需要,重点选择特征工程、数据降维、主题模型、语义网络、时间序列等技术。这些技术的协同应用,能够解决学术文献的核心概念提取、概念关系确立、学术理论建设以及研究方法和研究对象在宏观、中观和微观层面的多层次解析等问题,追踪学术发展和演变进程。
一是特征工程。特征工程在提取核心学术概念中发挥关键作用,主要包括词袋模型、词频—逆文档频率(TF-IDF)算法、主题模型、词嵌入技术等。词袋模型将文本视为词的集合,通过统计词频识别核心概念。TF-IDF算法综合考量词在文档内的频率和在文档集合中的稀有性,筛选关键概念。主题模型,如潜在狄利克雷分配(LDA)模型,通过分析词共现模式发现潜在主题,确定核心概念。词嵌入技术,如Word2Vec、GloVe等,将词映射到低维向量空间,通过聚类分析挖掘相似语义词簇,定位核心概念。
二是数据降维。文本数据维度高,难以直接分析。对应分析和T-SNE技术可将高维数据映射到低维空间,揭示数据关系、结构和距离。对应分析通过处理词频矩阵,计算轮廓系数,投影数据展示文档与术语对应关系,帮助搭建知识体系框架。T-SNE技术使数据点在低维空间聚类分布,通过分析聚类内容和间距,明确知识主题及其相关性、层次关系,为知识梳理整合奠定基础。
三是主题模型。主题模型包含潜在语义分析、LDA模型、动态主题模型、结构主题模型、Biterm Topic主题模型等,适用于大规模文本数据处理,挖掘潜在主题结构。使用时,需要对文本进行预处理,选择合适主题数和算法;对提取主题进行分析归纳,包括主题解释命名,结合学术知识为主题赋予准确名称;提取主题间关系,计算相似度、共现频率确定逻辑联系;知识抽取整合,提取关键知识点构建结构化知识单元,进而搭建知识体系框架。
四是语义网络。语义网络在知识体系发现中作用显著,涵盖知识表示、关联挖掘、结构分析、推理及可视化等方面。在知识表示与建模时,将学术概念、术语抽象为节点,用边表示关系,构建知识网络。知识关联挖掘通过分析文本确定概念共现关系,计算语义相似度揭示潜在关联。知识结构分析运用节点中心性分析和社区发现算法,评估概念重要性,划分知识子领域。知识推理与拓展通过搜索网络路径发现间接联系和潜在知识,为学术研究实践提供支持。
五是时间序列。时间序列分析将学术知识数据视为随时间变化的序列,挖掘其中的规律、趋势和模式。首先,提取与时间相关和学术知识相关特征,形成特征向量。然后,绘制趋势图、运用频谱分析、识别异常点、分析序列关联性,总结知识发展规律,预测学术研究方向。
应用前景
目前,基于文本挖掘技术知识体系建构方面取得了一些进展,主要包括基于文献的计量研究、学术概念的衍生和追踪研究以及本体工程新工具的开发与应用研究等方面。
一是基于文献的计量研究。该技术定量分析文献产出、引用网络和关键词共现等数据,揭示学术发展的内在逻辑与知识结构。例如,引文分析可追踪核心文献的演化路径,识别关键学者和机构,为学科体系建设提供实证依据。同时,通过高频关键词和突现词分析,捕捉学术前沿与热点,为知识体系的动态更新提供指导。此外,国际合作网络分析揭示了学术全球化特征,促进了跨学科知识融合与创新。
二是学术概念的衍生和追踪研究。在人文社会科学领域,主题模型可以帮助分析历史文献,识别核心议题与思想流变。例如,图佐(Arjuna Tuzzi)借助对应分析和主题分析梳理学术文献发展历史;焦尔当(Giuseppe Giordan)等学者用主题模型剖析美国社会学权威杂志摘要,探究学科发展轨迹;汪顺玉、陈瑞哲用结构主题模型分析“一带一路”倡议相关论文摘要,揭示不同地区学者研究差异。此外,该技术还应用于学科术语标准化、学术影响力评估等领域,为知识体系的规范化与动态更新提供了技术支撑。
三是新工具的开发与应用研究。新一代知识本体建构与语义分析工具为知识体系的系统化与智能化建构提供了重要支撑。这些工具通过自动化提取核心概念、术语及其语义关系,构建结构化知识网络,揭示学科知识的内在逻辑与演化规律。例如,计算机科学领域通过Protege等工具开发了语义Web本体语言(OWL),为人工智能知识表示与推理提供了标准化框架;社会科学领域通过语义分析工具挖掘政策文本构建知识图谱,为政策制定与评估提供科学依据。这些工具不仅解决了传统知识体系建构中概念模糊、关系不明确等问题,还通过动态更新与跨领域融合,推动知识体系的持续演进与创新。
不过,通过文本挖掘建构知识体系尚面临一些问题。首先,自然语言具有复杂性,其模糊性、多义性和隐喻性以及灵活的语法结构,容易引发歧义,增加了核心概念识别和提取的难度。其次,文本数据质量参差不齐,拼写错误、语法错误、不规范缩写等问题屡见不鲜,大量无关和冗余信息、广告宣传等噪声容易干扰核心概念提取,提高了处理成本,降低了挖掘准确性。再次,一些学科专业性强、术语和概念体系独特,还有一些新兴交叉学科概念界定尚不统一,这对研究人员理解领域背景、把握知识层次结构和逻辑关系提出了要求,加大了核心概念提取和知识体系建构的难度。最后,一些语义关系识别和表示存在困难,概念间的因果、上下位、并列等关系常隐含于文本,需要复杂语义分析和推理,且将其准确表示于语义网络并保证合理性和有效性颇具挑战。
文本挖掘技术为知识体系建构带来了新机遇,具有重要的学术价值。首先,它通过自动化处理海量学术文本,能够高效提取学科核心概念、术语及其语义关系,为知识体系的系统化与结构化提供技术支撑,提升了知识发现的精准性与全面性。其次,它能够动态捕捉学科前沿与热点,揭示知识演化的内在规律,为学科发展的战略规划提供科学依据。最后,文本挖掘技术还促进了跨学科知识的融合与创新,为新兴交叉学科的生长提供了方法论工具。充分发挥文本挖掘技术的优势,可以推动知识体系的完善与发展,为建构中国自主的知识体系、提升国际学术话语权提供支撑。
(作者系陕西省社会科学界联合会特聘研究员、西京学院外国语学院教授)