首页 >> 社科评价
让知识产生智慧 ——基于人工智能的文本挖掘与问答技术研究
2020年05月22日 09:37 来源:《情报学报》(京)2019年第7期 作者:温有奎 温浩 乔晓东 字号
关键词:人工智能/文本挖掘/智能问答/语义推理

内容摘要:计算机硬件性能的提升和云计算技术的发展提高了科技文献信息检索的速度和多类型数据聚类问题。

关键词:人工智能/文本挖掘/智能问答/语义推理

作者简介:

  内容提要:计算机硬件性能的提升和云计算技术的发展提高了科技文献信息检索的速度和多类型数据聚类问题,但检索的对象还不能直接进入文献内容的事实知识,因而难以实现智能化的科技文献大数据知识的问题快速回答和推荐服务功能,由此大数据环境下的科技文献信息浏览方式越来越增加了科技人员获取创新点知识的时间和负担。究其原因有两点,一是科技文献的数据模型是非结构化文本数据结构,二是传统的信息检索系统的数据库不支持非结构化的文本数据结构。这两点制约了科技文献大数据成果与用户问题智能化和自动化回答服务的发展。针对这一问题,本文提出基于科技文献大数据创新点成果的智能挖掘和知识服务研究,首先利用人工智能的思想对科技文献进行创新点成果挖掘,其次建立创新点成果语义知识库,最后建立基于语义知识库的智能推理机的问题答案服务系统,以此探索科技文献大数据服务的浏览模型向问题回答的智能化和自动化方向发展的研究方法。

  关 键 词:人工智能/文本挖掘/智能问答/语义推理

  标题注释:国家自然科学基金面上项目“文摘创新点挖掘的语义识别与关联发现方法研究”(71673213)。

  作者简介:温有奎(1951- ),男,博士,教授,中国科学技术信息研究所,北京万方数据股份有限公司,研究方向为文本挖掘、知识发现。北京 100038;温浩(1979- ),男,博士,西安建筑科技大学信息与控制工程学院副教授,主要研究方向为模式识别与智能系统。西安 710055;乔晓东(1965- ),男,硕士,研究员,中国科学技术信息研究所,北京万方数据股份有限公司,主要研究方向为信息管理与信息服务。北京 100038

  1 引言

  大数据时代的到来,引发了科技工作者寻找创新点的机会,同时也增加了判断创新点的难度。目前科技文献大数据信息资源服务模式受到了市场需求的挑战,传统信息资源服务业的资源检索、提供、浏览的基础市场模式难以满足科研活动中的新成果创新点的及时发现、研究过程中问题的解决方法的快速吸收、研究成果的创新点准确定位问题。如何实现文献内容的深度挖掘,提供创新知识的服务,适应科技工作者创新发展的市场需求,提高文献内容知识工作自动化将是未来科技文献大数据发展的方向。基于认知计算的思想,把人工智能技术引进科技文献知识服务领域将成为信息资源服务行业可持续发展的关键问题。

  新技术的发展可能颠覆一个行业的例子越来越多,发生的频率越来越快。传统的基于文献信息资源服务行业的核心优势是经过了资源积累和市场需求服务的拉动。一方面,近年来新技术的发展带来了信息资源获取渠道的遍地开花,获取方式变得更加简便,免费服务也到处可见,说明了信息资源积累的优势在发生动摇。另一方面,通过使用认知计算方法,我们将能够从数据中自动提取知识,从积累的知识中产生智慧。人工智能技术的急剧发展正在大大地推进着各行各业应用服务的智能化速度,大数据背景下的智能信息处理问题同样为情报学的理论和方法出了一份考题。面对科技文献大数据能否跳出传统检索—浏览信息资源服务模式,如何利用巨量科技文献知识解决智能化问题回答的新的智慧服务模式,人工智能技术成为情报学领域走向利用知识产生智慧服务模式的基础。传统的信息资源服务业的商业模式将会在市场中被能够让知识生成智慧的智能机器所代替。

  2 情报学的文献主题因素挖掘不足

  2.1 情报学的信息检索原理

  传统的科技文献信息检索技术主要有元词法、叙词法、关键词法、主题索引法、引文索引法、自动标引、自动化文摘等[1]。科技文献的检索途径有两种,一种是依据文献外表特征的检索途径:①文献名途径:如书名、刊名、篇名、特种文献名等;②著者途径:作者、编者、译者等;③序号途径:文献出版时所编的号码,如报告号、专利号、标准号、文摘号等;④其他途径:如出版类型、出版日期、国别、文种等。另一种是依据文献内容特征的检索途径:①主题途径:即所需文献的主题内容,如主题索引、关键词索引等;②分类途径:按照学科分类体系查找文献的方法;③其他途径:依据学科特有的特征查找,如分子式索引、环系索引、子结构索引等[2]。

  2.2 情报检索语言的发展

  为了对文献的信息按一定方式组织和存储,以便针对用户的需求找出所需要的信息,情报检索工作者创制了情报检索语言(information retrieval),它又称为“情报存储与检索”(information storage and retrieval)。它是一种人工语言,专门用于各种手工的和计算机化的文献情报存储与检索系统,表达文献主题概念和检索课题概念,亦称文献工作语言。张琪玉教授强调,情报检索语言实质上是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统。情报检索语言由词汇和语法组成。词汇是指登录在分类表、词表、代码表中的全部标识,一个标识(分类号、检索词、代码)就是它的一个语词,而分类表、词表、代码表则是它的词典。情报检索语言可以是从自然语言中精选出来并加以规范化的一套词汇,可以是代表某种分类体系的一套分类号码,也可以是代表某一类事物的某一方面特征的一套代码,用于对文献内容和情报需要进行主题标引、逻辑分类或特征描述。20世纪50年代开始了情报检索计算机化[3],对情报检索语言的发展产生了深刻的影响,推动了情报检索语言的创新和改造,使词表、分类表向机读化和机编化发展,使多种语言结合使用成为可能,促进了文献标引过程和索引编制过程的自动化,促使许多新检索方法的产生,扩大了情报检索语言的应用范围,特别是使自然语言在情报检索中的应用成为可能。

  2.3 文献主题多因素有待细分揭示

  张琪玉教授在《情报检索语言基础》[4]这本书中对文献主题给出了精辟深刻的贡献,他认为文献主题就是概括文献中关于某一事物情报内容的概念。文献标识是文献主题的书面表达形式。绝大多数文献主题是由多个主题因素构成的。各个主题因素在文献主题中都按其描述功能处于一定的位置,从而形成一个具体性递增的层次结构。每一个主题因素在文献检索中都起着一定的作用,但其重要性又是各不相同。文献主题的层次是一个具体性递增而必要性递减的次序。层次越多、文献主题越具体,对文献情报内容的表达就越精确、越专指。他把文献主题分为六个层次:事物、事物本身诸剖面、事物间的关系、对事物的研究/改造或产品的生产/制造、客观环境、文献的外部特征。我们曾与张教授进行过主题成因的交流[5],他提到了文献主题目前只揭示到事物层,他讲目前文献主题之所以还没有这么细分是因为技术实现的问题,将来对文献主题因素细分会带来很有用的价值。

  2.4 文献内容需要智能挖掘和提取

  科技文献大数据是一种自然语言的文本形式表达的科技成果,用来进行人类创新思想的交流,而机器还并不能直接理解这些自然语言的内容。由于未能对科技文献内容进行挖掘和提取,未能建立科技文献内容知识库,所以目前的科技文献服务机构仍然停留在文献元数据特征信息检索和原文提供的服务层次上,仍然未进入知识增值服务或者知识服务阶段。虽然很多信息资源服务机构推出知识服务的宣传,尝试通过关键词共现推荐文献资源间的关联,以及对用户相关问题的关键词匹配式的文献推荐和文献片段的推荐,但目前的信息检索技术没有解决对非结构化的文本信息进行完整语义和隐含知识关系的识别,没有对智能化的文本语义的深度挖掘技术的突破,难以实现智能机器检索、服务方式仍需要用户人工以大量浏览题目和文摘的方式判断文献内容的有用性。现代科技文献大数据积累了人类科技进步的知识财富,如何有效智能地挖掘这些财富,让科技内容知识大数据变为人类创新的智慧,利用人工智能技术的文本语义挖掘和智能推理技术,已成为科技文献大数据服务的核心技术和商品进军的热门市场。

  3 人工智能开启文本知识应用新模式

  3.1 文本中的知识挖掘与知识存储

  3.1.1 数据存储技术对大数据管理的挑战

  情报学中的文献主题成因理论与计算机存储和检索技术密切相关,文本数据的知识如何用所谓的主题揭示,需要将知识表达为主题,还需要进一步将主题存储为数据模式,以便利用存储的模式进行检索。后者是情报学理论不曾考虑的技术问题。数据模型是当代大数据系统数据存储、分析和处理的核心。根据不同的数据模型,当前的数据存储系统可以分为两大系列:关系存储(SQL)和NoSQL存储。传统信息检索的存储和查询离不开结构化的数据库技术,SQL(结构化查询语言)是经典的数据查询语言,最初是为基于关系代数的关系数据库设计的。它包含四个基本原语:创建、插入、更新、删除,可以修改被视为具有模式的表的数据集。关系数据库以二维表结构对数据进行组织和存储,其中的元素如属性(attribute;表中的每一列称为一个属性,也称字段)用来描述实体集的某个特征。每个属性都有自己的取值范围,称为域。元组(tuple):表中的每一行由一个实体的相关属性取值构成,称为元组(也称记录),它相对完整地描述了一个实体。元组中的一个属性值称为分量。SQL语言独立于关系数据库本身,独立于使用的机器、网络和操作系统。

  关系数据库管理系统,如MySQL、Oracle、SQL服务器和PostgreSQL,几十年来一直支配数据库系统。随着数据呈现指数级的增长,要在分布式网络场景中存储,关系数据库表现出可扩展性的限制,这大大降低了查询和分析的效率。事实上,大多数关系型数据库几乎无法在许多服务器上进行横向扩展,这使得存储和管理大量应用程序每天生成的大量数据变得非常困难。为了确保分布在许多服务器上的简单读/写数据库操作的可伸缩性,应对大数据的挑战,出现了一批放弃支持数据库系统ACID交易(原子性、一致性、隔离性和耐久性,这是关系数据库关键原则)的数据库系统组,被命名为NoSQL (Not only SQL,不仅是SQL)系统,它能为任何大规模数据集提供横向可伸缩性。NoSQL系统或非关系数据库方法作为关系数据库的备选或补充在近几年来变得流行起来[6]。与关系数据库相比,NoSQL数据库通常更灵活和可扩展,因为它们能够透明地利用新节点,而无须手动分发信息或进行额外的数据库管理[7]。由于数据库管理可能是一项具有大量数据的挑战性的任务,因此NoSQL数据库旨在确保自动数据分配和容错[8]

  基于不同的数据模型移植,这些NoSQL系统可以分为三大类:键值存储(key-value stores)、文档存储(document stores)和可扩展记录(extensible record)/基于列的存储(column-based stores)。

  (1)键值存储使用简单的数据模型,其中数据被视为一组key-value对,键是每个数据的唯一ID,并且在访问数据时也可以作为索引使用。值是包含数据实际信息的属性或对象。因此,这些系统被称为键值存储。键值存储中的数据可以使用简单的界面进行访问,如插入、删除和按键搜索。

  (2)文档存储提供了比键值存储系统更复杂的数据结构和更丰富的功能。在文档存储中,数据单元被称为文档,它实际上是一个可以包含任意字段、值,甚至嵌套对象和数组的对象。文档存储通常没有预定义的数据模式,并且支持按文档字段和属性进行搜索和索引。与键值存储不同,它们通常支持二级索引、嵌套对象和列表。另外,有一些甚至可以支持具有约束的查询、聚合、分类和评估。

  (3)可扩展记录存储(也称为列存储)最初的动机是Google的Big Table项目。在这个系统中,数据被视为具有行和列系列的表格,其中行和列都可以分割到多个节点上。由于这种灵活和松散耦合的数据模型,这些系统支持水平和垂直分区以实现可扩展性。另外,相关字段/列(称为列族)位于同一分区上以便于查询性能。在创建数据表之前,通常预定义列族。但是,这不是一个很大的限制,因为新的列和字段总是可以动态添加到现有的表中。

  3.1.2 非结构化文本挖掘对大数据利用的挑战

  科技文献大数据的问题不仅仅是存储和检索,而是从带噪声和非结构化的数据中挖掘大量知识[9]。科技文献大数据是一种非结构化的文本数据,非结构化数据占当今生成的所有数据的80%,非结构化数据大部分都带噪声,机器无法理解这些数据。嘈杂的非结构化的文本信息是传统系统无法读取的格式,到2020年,嘈杂的数据量预计将增长到93%以上。由于大多数工具不支持不同格式和来源的非结构化数据,所以找到一种可以提取有用信息的方法,是处理非结构化这类数据的一项艰巨任务。

  为了识别不同类型数据之间的关系和模式,出现了四种不同的非结构化文本分析技术:社会媒体分析(social media analytics),收集和分析从各种社交媒体收集的信息;文本挖掘(text mining),侧重于对基于文本文件的深入分析;观点分析(sentiment analysis),其目的是通过分析来自文件、报告、调查、表格、电子邮件等的电子文本来识别用户的期望、想法和优先事项;地理空间分析(geospatial analysis),专注于来自卫星、全球导航系统、航测、传感器网络和雷达的数据。

  社交数据挖掘可以定义为系统分析和提取社交媒体中有价值的信息。由于社交媒体数据主要由用户生成,其分析的内容特点是浩大、嘈杂、分布式、非结构化的、动态的。

  文本挖掘是一个新的、令人兴奋的研究领域,试图利用数据挖掘、机器学习、自然语言处理(NLP)、信息检索(IR)和知识管理技术解决信息过载问题。文本挖掘涉及文档集合(文本分类、信息提取、术语提取)的预处理,中间表示结果的存储,分析这些中间表示的技术(如分布分析、聚类、趋势分析和关联规则)以及结果的可视化[10]。

  从非结构化文本中发现信息的文本挖掘技术应用在当今许多领域,有一些我们每天都在使用:如自动处理电子邮件,用于自动分类文本和识别“垃圾邮件”,以过滤垃圾邮件;医疗记录的挖掘用于改善患者健康的护理;网络安全应用于打击恐怖主义和犯罪,经常在线分析纯文本来源,如新闻、博客、资料,以监测可疑活动和检测恶意意图。文本挖掘技术由文本收集、文本清洗、文本分词、文本表示、文本降维、挖掘分析六个阶段组成。

  Yoo[13]指出传统的文本挖掘方法存在三个主要问题。第一,矢量空间模型(Vector Space Model,VSM)中所有维度是独立的假设与实际不符,高维空间的文本处理中严重地妨碍对象(这里指文献)相似性检测;第二,大多数传统文本挖掘方法不考虑词汇/术语的语义相关性(同义词);第三,文献的矢量表示基于词代法(bag-of-words model),导致“维数灾”。认为语义文本挖掘是利用本体论中的领域背景知识的文本挖掘,也称作基于知识的文本挖掘。针对文本挖掘方法的问题,引入语义文本挖掘方法(semantic text mining approach)。语义文本挖掘与传统文本挖掘不同之处在于,语义文本挖掘在文本挖掘方面使用了与目标文本有关的领域本体知识[11]。

  Huang等[14]介绍了一种从大量文本中发现语义关系的新方法。这种方法首先从页面中抽取关于个人和组织的实体并加以定位。然后从抽取出的文本文件中抽取语义关系,并把它们混合成一组语义图。语义关系的抽取先要使用解析器从大量资源中提取内容,然后使用了自然语言处理技术把内容分割成句子,抽出每一个句子的命名实体,接下来画图,由产生的命名实体合并成文本图。语义关系图采用资源描述框架描述,图合并后对文本图使用常见的子图挖掘算法以定义常用的模式,这包括隐含关系。最后,使用链接数据的数据库注释常用模式以显示实体的关系。

  社交数据挖掘和文本挖掘情景也称为观点挖掘,它都使用自然语言处理(NLP)技术、统计学或机器学习方法提取、识别或以其他方式表征文本单元的情感内容。

  3.2 认知文本知识智慧的挑战

  3.2.1 RDF与KB的知识模型融合发展

  知识库(Knowledge Bases,KB)有别于数据库,是人工智能系统的一个组成部分,起源于专家系统或人工智能(AI)研究人员首先开发的基于知识的系统。基于知识的系统由两部分组成:一个知识库和一个知识库推理机。知识库代表关于世界的事实,推理机代表关于世界的逻辑断言和条件。第一个基于知识的系统将世界的事实表示为平面数据库中的简单断言,并使用规则来推理这些断言。随着数据库系统的发展,许多种数据库,如图形数据库或面向对象数据库被应用于维护知识库。结构化数据和非结构化数据都可以由知识库管理。不同领域的知识库包含来自政府、出版物、生命科学、媒体、地理和社交网络等的数据。知识库最近被许多语义Web应用采用,因为它可以提供事实和关系以及支持推理。语义Web也具有Web3.0的名称,是连接信息的下一个重大进展。它使得数据可以在源之间联系起来,并被计算机理解,以便它们可以代表人类执行复杂的任务。

  知识库(KB)是存储复杂结构化和非结构化事实(即知识)的计算机系统。传统意义上的知识库将知识以两个不同的部分组织和存储:①定义一个本体论模型,其中包括属性(城市、公司、人员等)和关系(worksFor(人,公司),eadQuarteredIn(公司,城市));②是一组类别的事实和关系的实例,例如,城市(纽约市)、公司(迪士尼)、人(华特迪士尼)。

  知识库构建中,知识模型是一个非常重要和比较困难的问题。资源描述框架(Resource Description Framework,RDF)被广泛用作知识库的数据建模语言,成为知识库建模的新代表,大大地推进了知识库的构建过程。RDF由三元组(主体,谓词,对象)构成的关系表示,主体和对象通过谓词连接起来。一个知识库可以用一组连接起来形成一个图的三元组表示。所以RDF建模的知识库也可以称为知识图。

  RDF不仅使得构建知识库变得容易,还允许跨越边界共享和重用数据。SPARQL查询语言是RDF模型化的知识库的查询语言。在KB-QA中,对于自然语言问题的处理通常分两步回答:①将问题转换为结构化查询(例如,SPARQL查询);②针对KB执行结构化查询,并返回答案。许多开放的KB为用户提供接口。SPARQL端点是广泛使用的方法之一。

  知识库系统中的查询知识库在研究人员和从业人员中仍然是一个具有挑战性的话题。现有的KB-QA系统可以分为策划的KB-QA系统和开放的KB-QA系统。一个策划的KB-QA系统建立在协作和手动创建的策划的KB上(例如,Freebase和DBpedia)。

  近年来,许多行业巨头也把重点研究成果放在知识库上。IBM的DeepQA项目也利用知识库方便自然语言问题的回答。DeepQA用基于规则的深度语法分析和统计分类方法来确定一个问题是否应该被分解,以及怎样分解才最容易回答。DeepQA系统采用了机器学习的方法来计算信心值:工程师们先准备一套已知正确答案的问题,让DeepQA来尝试给对应的备选答案评分。之后再查看这些备选答案的信心值,然后朝着缩小差距的方向调整参数,再次评分,从而一步步训练出一个评分模型。

  3.2.2 认知文本知知识智慧的认知计算

  早期的人工智能对知识的表示方式有命题(propositions)、一阶谓词(first order predicate)、产生式(production)、框架(frame)、语义网络(semantic networks)、脚本(script)、过程(process)、Petri网、面向对象(object-oriented)等。

  20世纪80年代的人工智能实验试图模仿大脑的功能,从而产生了许多知识表示形式。在这种模式下,基于产生式规则推理机运行项目,如Edward Shortliffe著名的MYCIN。今天的认知计算解决方案不再试图模仿人类的大脑,而是作为人类推理方式的补充扩展。在20世纪80年代初,人们通过模仿大脑的人工智能,获得的最多的是模仿老鼠的大脑,这为神经网络努力创造了目前的多个代理的良好基础。后来用模糊逻辑来支持复杂的数学问题建模,最后实现了研究机器学习项目,在这个序列中进化出认知计算系统。

  人工智能(AI)和今天的认知计算(cognitive computing)可以说有更多的差异和相似之处。认知解决方案和研究部高级副总裁John E.Kelly Ⅲ在其著作[12]中把认知计算定义为:认知计算不仅仅是一个新的计算系统或计算范例,而它是一个全新的计算时代,世界上数据的爆炸式增长以及变化的速度超过了我们对这些系统重新编程的能力,我们已经创造了这个时代,因为它具有更像人类认知的属性。这些已经不是编程系统,它们是学习系统。这些不是要求数据在表格或关系数据库中整齐排列的系统。它可以处理高度非结构化的数据,从推文到传感器发出的信号。

  今天的认知计算解决方案(cognitive computing solutions)是建立在基于人工智能、自然语言处理、本体上的大数据管理和分析方面的先进技术。它们预示着一个智能基础架构,可在所有行业中实现新一代客户和情境感知型智能应用。IBM Watson[12]具有understanding(理解)、reasoning(推理)、learning(学习)功能,是认知计算系统的杰出代表,也是一个技术平台。认知计算代表一种全新的计算模式,它包含信息分析、自然语言处理和机器学习领域的大量技术创新,能够助力决策者从大量非结构化数据中揭示非凡的洞察。

  IBM的Watson计算机在电视智力竞赛节目中击败了两位过去的全能冠军时引起轰动,数千万人突然明白计算机是多么“聪明”[12]。这一事件宣布了认知计算机时代的开始,这个时代将通过新技术的出现发生重大变化。我们相信这个新时代可能会改变人们查看和使用数据的方式(change the way see and use data),在提高人类智能的输入方面更容易转变。现在,通过使用认知计算方法,我们将能够从数据中自动提取知识:即从数据信息中认知知识。提取知识的这种尝试一旦获得成功,认知计算可能会把我们带到更高层次的智慧:从数据信息中认知知识智慧,如果发生这种情况,可以考虑认知计算今天的定义是,自动从数据中提取知识的过程,以及将来的定义很可能扩展到从积累的知识中产生智慧的过程。

作者简介

姓名:温有奎 温浩 乔晓东 工作单位:中国科学技术信息研究所 西安建筑科技大学

转载请注明来源:中国社会科学网 (责编:赛音)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
ooo.jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们