基于汉语框架网络本体问答系统中语句相似度计算

更新时间:2024-03-29 作者:用户投稿原创标记本站原创
[摘要] 基于概念图理论提出将汉语框架网络问答系统中问句的语义框架结构与检索文本中句子的语义框架结构的匹配问题转化为概念图匹配问题的思想,将查询概念图与资源概念图的相似度分为框架概念相似度、框架元素概念相似度及句子中语块相似度三个部分。测试表明,这种新的计算问句与答案候选句的语义相似度的方法较之传统基于关键词匹配技术的方法效率更高。
[关键词]概念图匹配语句相似度相似度计算
1引言
在整个问答系统中,信息检索模块处于一个中间地位,一方面,它接受问题分析模块所返回的带有加权系数的问句的特征信息;另一方面,它从大量收集到的文档集合中,找到与给定的查询请求相关的恰当数目的文档提交给答案抽取模块。信息检索模块对检索结果的筛选并不是一个精确的匹配过程,而是一个相似匹配过程,具有一定的模糊值,需要用相似度值来度量查询与文档集中某个文档之间的相似程度。以用户的自然语言提问为检索入口的语义检索系统,需要衡量信息资源中答案候选句与问句的相似度,提取与问句相似度最大的句子,采用适当的格式向用户提交准确答案。因此,语句相似度的计算是信息检索模块的一个关键问题。
2语句相似度的计算方法概述
语句相似度的衡量机制与对语句的分析深度密切相关。从对语句的分析深度来看,目前句子的相似度计算方法主要有两种:①基于向量空间模源于:大学生论文查重www.808so.com
型的方法[2-3]。该方法把句子看成词的线性序列,不对语句进行语法结构分析,相应的语句相似度衡量机制只能利用句子的表层信息,即组成句子中词的词性、位置、词频等信息。由于不加任何结构分析,该方法在计算语句之间的相似度时不能考虑句子整体结构的相似性。②基于句法语义分析的方法[4-5]。这是一种深层结构分析法,对被比较的两个句子进行深层的句法分析和语义分析,找出句子的组成词汇信息及语义结构信息。
本文讨论的是封闭式问答系统中问句与检索文本中句子的相似度,由于汉语句子的表达形式是多种多样的,因此重点在于考察问句与检索文本中句子在语义上的相似度。我们采用基于概念图匹配的方法计算法律框架网络检索子系统中用户自然语言问句与答案候选句的语义相似度,该方法也属于第二种。
3概念图及语义框架结构
3.1概念图与概念图匹配
概念图是一个由一些结点和弧线组成的层次结构,其中结点用来表示概念,对应于本体中的类、属性或者实例等;而弧线则表示两个概念之间的关系,对应本体中的关系。
概念图的匹配不是概念图的完全匹配,而是概念图间的相似度计算。文献[6]中阐述了通过WorldNet中两个概念的语义距离得到类之间的语义相似度,然后将各个结点和关系的相似度按权值累加得出两个RDF图之间的相似度。文献[7]也用到了该方法来计算两个概念图之间的相似性。在这两篇文献中,分别把本体看作一个RDF图和一个概念图。为了避免计算时递归陷入无限循环,规定用户指定一个查询概念图的入口结点,已有的被检索的概念图也有一个入口结点,仅仅比较在两个概念图中同等位置的概念的相似性。Poole和Campebll在文献[8]中为概念图的匹配定义了三种相似度,即表层相似度(surface similarity)、结构相似度(structure similarity)和主题相似度(thematic similarity),表层相似度和结构相似度分别对应于待匹配的对象和关系的相似性,而主题相似度则取决于同时考虑概念和关系出现的特定模式。
3.2基于汉语框架网络本体的句子语义框架结构
3.2.1 汉语框架网络本体利用框架语义学原理,我们构建了汉语框架网络知识本体,并利用该本体知识对本地库中的文本进行了框架语义标注。按照框架语义学的思想,句子中一个含有述谓意义的词汇激活一个事件场景,场景中有各种角色参加[9]。在汉语框架网络数据库中,这个被激活的事件场景被称为“框架”(Frame),参与到场景中的角色被称为框架元素(Frame Element, FE),句子中那些含有述谓意义的词汇就是所激活框架的词元(Lexical Unit,LU)。此外,“框架”之间的相互作用形成多样化的框架间关系,包括横向关系和纵向关系。例如,依照概念间的相似性比较形成概念的逻辑关系,属种关系(继承关系)、使用关系、参照关系等;根据概念的个体在空间或时间上的连接性形成总分关系、因果关系等。
3.2.2基于汉语框架网络本体的句子语义框架结构本文所定义的语义框架结构是指利用汉语框架网络本体知识对本地库中或网络上的文本、句子进行概念分析并采用标准化的形式对句子进行框架语义标注所形成的句子的语义逻辑结构,是对句子基于概念层面的、机器可识别的语义理解。
Fillermore曾经这样定义框架这个概念:“当使用‘框架’这个术语时,我心里想到的是一个互相联系的概念体系,对这个体系中任何一个概念的理解都必须依赖对其所属的整个结构的理解” [10]。也就是说,语义框架可以是任何一个概念体系,其中的概念之间相互关联,要理解这一体系中的任何一个概念,就必须理解整个概念体系。例如,想要知道“victim”、“perpetrator”、“goods”这些概念的意义,就要知道“Theft”这个概念。因为这些词都是涵盖在“Theft”框架之中,是该框架的框架元素,框架与框架元素之间的关系为“hasFE”。而对“Theft”框架的进一步理解可能还会涉及到“taking”框架和 “Commiting_crime”框架,因为它分别是后两个框架的子框架,构成继承关系(InheritsFrom)。当这样一个概念结构中的诸多概念中的一个被置入到一个文本或一次交谈中时,该概念结构中其相关的概念都自动被激活。
例如,句子S1“近日,被广东省中山市一家贸易公司招聘为煤场铲车司机兼看守的一名保安人员周绍海因与他人合伙盗煤被中山市中级人民法院以职务侵占罪判处有期徒刑一年六个月”中的目标动词“盗” 激活框架Theft(盗窃) ,相应地,句中的语块(span)“被广东省中山市一家贸易公司招聘为煤场铲车司机兼看守的一名保安人员周绍海”、“煤”和“与他人合伙”激活了该框架中的框架元素Perpetrator (犯罪者)、Means(方式)、Goods (物品)。在数据库中,我们将语块与框架元素以及目标词与框架之间的这种激活与被激活的关系定义为填槽或唤醒关系(Fillerof/evokes)。每个语块与句子之间是从属关系(Subsumes)。据此,利用汉语框架网络本体知识对句子S1的理解所产生的语义框架结构如图1所示:根据框架网络本体知识,一个框架与其它框架之间以及它们的框架元素之间也通过相关关系连接,构成一个概念层级结构。例如,前面提到的框架——盗窃(Theft)、占有(Taking)和犯罪(Committing_crime)及它们的框架元素之间的关系如下图2所示:
通过对概念图及句子语义结构的分析及对比,我们发现:可以将句子的语义结构视作一个由表示框架、框架元素及语块的结点和表示关系(框架关系,框架元素关系及它们与语块之间关系)的弧线组成的概源于:毕业小结www.808so.com
念图。对句子的语义理解是就对其语义框架结构的认识,句子间的相似性问题就转化为其语义框架结构的匹配问题,而框架语义结构的匹配问题又可被视为概念图的匹配问题。
4基于法律框架网络本体的句子相似度计算
基于汉语框架网络本体的问答系统中,问句处理模块采用基于规则匹配的方法对问句进行了基于汉语框架网络本体知识的语义分析,生成问句的框架语义结构并根据疑问词及相应规则确定了问句的焦点。沿用上述研究的结论,结合所构建的汉语框架网络本体的特点,我们将问句的语义框架结构与本地库中经过加工的文本句子的语义框架结构视作概念图(为叙述方便,前者称为查询概念图CGQ,后者称为资源概念图CGR)进行语义相似度计算。
4.1汉语框架网络问答系统中问句与答案候选句的相似度计算思路
计算过程中,我们把查询概念图CGQ与资源概念图CGR的语义相似度分为框架概念相似度、框架元素概念相似度、语块相似度三部分来考量。具体设计思路如下:
?以查询概念图CGQ中的根节点即框架概念节点(QFR)为检索入口节点,与资源概念图CGR中的根结点((RFR))相比较,依据两框架概念在框架网络本体结构体系中的位置及关系,计算两图中根节点的相似度。
?读取CGQ中的次级节点即框架元素概念节点(QFEi),遍历CGR中的相应层次的节点(RFE),选择与QFEi相似度值最大的RFEj作为匹配框架元素。
?计算相匹配的框架元素节点所对应的语块之间的相似度。
?计算两概念图之间的相似度大小并进行排序。
4.2基于法律框架网络本体的句子相似度计算模型
4.2.1 框架概念相似度由前述的相关文献,两个概念之间的距离可以通过它们在概念层次中的相对位置来决定。一般来说,概念之间的相似度取0到1之间的值,0表示相似度最小,1表示最大。给定概念C1、C2之间的概念相关性为:
(1)
在本体结构体系中,不同层次概念之间抽象跨度不均匀,各概念层次中的每个结点都有一个计算距离用的值,称为“里程碑”(milestone)。它的计算公式为:
(2)
通常设K=2, 代表节点到根节点的距离(其中根节点 )。这样,
(3)
其中,ccp代表C1、C2两者最接近的共同父节点。该计算模型源于这样一种设计思想:较高层次概念之间的相异程度要大于较低层次概念之间的相异程度;同时,兄弟概念(直接继承于同一个父类的概念)之间的相异程度要大于父子概念之间的相异程度。
在实际的语义检索应用中,我们要评估的是资源图符合查询图的程度,而不是查询图符合资源图的程度。因此,在考察概念的匹配时,我们要特别考虑两个概念间为继承关系的情形。设概念C1是概念C2的父类,若C1来自查询图、C2来自资源图,那么因为C2 IsAC1,所以应该认为完全符合匹配的条件,相似度为1;反之,若C2来自查询图、C1来自资源图,那么因为C1中可能包含非C2的子类,所以不能认为一定匹配C2,故此时应通过语义距离计算相似度。
框架概念之间相似度也通过两个框架概念在框架网络本体中相应位置间的距离来计算。考虑到现有资源条件及效率问题,系统目前只处理到CGQ与CGR中的框架概念在框架网络本体中位置相同或构成直接父子关系的情形,即CGQ与CGR的入口概念相同或是相互间是具有继承关系的父框架或子框架。
当QFR与RFR相同或QFR为RFR的父框架时,它们的相似度为1;当RFR为QFR的父框架时,它们的相似度根据它们在本体概念层次中的位置计算;当QFR与RFR不相同且它们在框架网络本体库中没有直接的相关关系时,我们即认为这两个框架概念之间没有“共同父结点”,它们的相似度为0。
综上所述,来自查询图的概念框架QFR与来自资源图的概念框架RFR之间的相似度定义为:
(4)
4.2.2 框架元素概念相似度当查询图中的概念框架QFR与资源图中的概念框架RFR的相似度不为0时,进一步分析两图中作为概念框架的子节点的框架元素概念节点之间的相似性。读取查询资源图中的框架元素概念节点QFEi,遍历资源图中的框架元素概念节点RFE,计算二者之间的相似度,直到比完为止。在每个递归过程中,选择资源图中与查询图中框架元素概念相似度最大的框架元素概念作为与QFEi相匹配的框架元素节点。在汉语框架网络知识库中,每个框架元素都有唯一的标识符。相互关联框架所对应的框架元素之间构成映射,在具体的文本中,这些框架元素之间被定义为同一关系(iendtity)。因此,语义角色之间的相似度只有两个取值:0和1。当两个框架元素ID相等或二者为同一关系时,相似度为1,否则为0。
4.2.3语块相似度本文进行概念图语义匹配的最终目的是在文本中检索出符合用户问句查询要求的句子。因此,概念图匹配的最后一步必须落脚到在具体句子中作为概念图中概念结点实例的语块之匹配,即进行框架语义结构中框架元素实例的匹配。在得到资源图中与查询图的框架元素概念相似度最大的框架元素概念节点之后,进一步进行这些语义槽中相应值(即句子中为框架元素填槽的语块)之间的相似度衡量。由于我们已经计算了问句及答案候选句中被句子的目标谓词激活的相应框架概念的相似性,这里的“语块”不包括图1中激活所示的(evokes)语义框架的目标谓词。
一个完整的汉语句子由句子的关键成分和修饰成分所构成,而人们往往从关键成分就可以了解一个句子的大概意思。但由于汉语表达形式的多样性,相同的关键成分可用不同的修饰成分来修饰,如果强调修饰成分,这无疑会给句子间相似度的计算增加噪音。因此,在进行语块的相似度计算时,我们选择每个语块中的核心词汇或有效词汇。这里,我们将语块的核心词汇定义为名词、动词、形容词及限定性副词,它们由分词后的词性标注决定。语块相似度分为词形相似度和词义相似度两个方面。?词形相似度。词形相似度分析词的表层相似性,计算公式为:
(5)
其中, 表示是两个语块之间的词形相似度。 和 分别表示两个语块中所包含的核心词汇的集合, 表示两个词汇集合中包含的相同词汇的数目, 表示 和 中包含的核心词汇数目的最大值。
?词义相似度。对于 和 中词形不同词汇,我们需要考虑这些词汇在具体的上下文中的确切含义,判断它们是否具有相同的义原以判断它们之间的语义相似度。我们采用的工具是哈尔滨工业大学计算机科学与技术学院智能内容管理实验室所做的语义消歧系统。目前该系统在开放测试下准确率能够达到91.89%,封闭测试准确率能够达到98.67%[11]。该系统能够对经过分词和词性标注后的句子进行语义消歧,并在每个词后面标注上相应的语义号。例如,对于句子:“哈尔滨/ nd在/P什么/r地方/ng? /wj”,经过语义消歧后变为:“哈尔滨/17在/1269什么/468地方/17?/-1”。每个语义号都对应知网中的一个义原。例如,“17”对应的义原为“placel地方”,“1269”对应的义原为 “{location}”, “468”对应的义原为“aValuel属性值,kind I类型”,“-1”表示在知网中找不到这个词或者这个词是没有价值的语义信息(如标点符号)。对问句和答案候选句执行“语义消歧”并识别句中词汇所对应的语义号后,通过比较语块中核心词汇的语义号可计算语块的语义相似度。计算公式如下:
(6)
类似地, 表示两个语块之间的语义相似性, 和 分别表示两个语块中所包含的核心语义的集合。 表示两个语义集合同包含的词汇语义数目, 表示 和 中包含词汇数目的最大值。
由于基于词形和基于语义的相似度计算方法各有优点,因此,我们综合公式5和公式6,用下面的公式计算句子的语义框架结构中叶节点对应的短语相似度:
(7)
公式中, 。
考虑问句焦点的特殊情况,我们规定查询概念图中代表问句焦点的框架元素所在的语块与资源概念图中相应框架元素所在语块之间的相似度为1。
4.2.4查询概念图CGQ与资源概念图CGR的相似度基于上面框架概念相似度、框架元素相似度以及语块的相似度计算,最终得出查询概念图与资源概念图语义相似度的计算公式:
(8)
上式中, 是分别代表问句的框架语义结构和信息资源中答案候选句的框架语义结构的查询概念图与资源概念图的相似度。 是查询图与资源图中框架概念节点的相似度。 是查询概念图中包含的框架元素概念节点数。 代表表示查询图中第i个框架元素概念节点的权重,该权重的计算采取基于统计的方法,根据该框架网络本体标注例句库中该框架元素出现的频率计算。 表示查询概念图中第 框架元素概念节点与资源图中各个框架元素概念节点之间的相似度。选择资源概念图中与之相似度最大的那个框架元素概念RFEj作为相匹配的框架元素,进一步计算框匹配的两个框架元素节点所在的语块的相似度。对查询图中所有框架元素及其所在的语块与资源图中最匹配的框架元素及语块的相似度求和,与它们的框架概念相似度的乘积即是查询概念图与资源概念图之间的相似度或相关度。
查询模块计算出问句与答案候选句之间的语义相关度之后,按照相关度大小对答案候选句排序,将相关度达到一定数值的答案候选句提交给答案抽取模块,答案抽取模块结合问句焦点信息,抽取准确答案,以适当的形式将答案返回给用户。
5结论
在对问句及检索文本进行框架语义标注的基础上,本文利用概念图相关理论并参照现有的概念图相似度计算方法,提出了一种基于汉语框架网络本体知识的问句与答案候选句的语句相似度计算方法。将该语句相似度匹配技术应用于我们所开发的基于法律框架网络本体的问答检索系统LawOntoSearch中的检索模块,经过系统测试,初步证明了该方法在检全率和检准率两方面都比基于关键字的信息检索系统有一定程度的提高[12]。
本研究的不足之处在于,系统中对汉语框架网络本体库中框架及框架元素之间关系的利用还有一定的局限,不能最大限度地发挥这些关系在信息检索乃至语义推理中的作用,这也将是我们下一步研究的重点。
参考文献:
宋俊峰,李国微.信息检索算法评价指标的分析与改进[J].小型微型计算机系统,2003(10):1800-1803.
王长胜,刘群.基于实例的汉英机器翻译系统研究与实现[J].计算机工程与应用,2002, 38(8): 126-127.
[3] 吕学强,任飞亮,黄志丹,等.句子相似模型和最相似句子查找算法[J].东北大学学报(自然科学版),2003, 24(6): 531-534.
[4] 穗志方,俞士反.基于骨架依存树的语句相似度计算模型[C]//1998中文信息源于:本科论文www.808so.com
处理国际会议文集.北京:清华大学出版社,1998:458-465
[5] 李彬,刘挺,秦兵,等.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003, 20(12): 15-17.
[6] Zhu Haiping, Zhong Jiwei, Li Jianming, et al. An approachfor semantic search by matching RDF graphs[C] //Proceedings of the Fifteenth International Florida Artificial Intelligence Research Society Conference. palo Alto:AAAI Press,2002:450-454.
[7] Zhong Jiwei, Zhu Haiping, Li Jianming, et al. Conceptual graph matching for semantic search[C]//Proceedings of the 10th International Conference on Conceptual Structures: Integration and Interfaces. London: Spring- Verlag ,2002:92-106.
[8] Poole J, Campbell J A. A novel algorithm for matching conceptual and related graphs[C]// Proceedings of the 3th International Conference on Conceptual Structrues: Application, Implementation and Theory. London:Springer-Verlag,1995:293 -307.
[9] Narayanan S, Harabagiu S. Question answering based on semantic structures[C]//Proceedings of the 20th International Conference on Computational Linguistics (COLING-2004) . Geneva: COLING , 2004 :693-701.
[10] 杨琳琳. 语义框架在词汇、语义现象中的运用[J].怀化学院学报,2007,26(5):125-126.
[11] 李彬,刘挺,秦兵,等. 基于语义依存的汉语句子相似度计算.计算机应用研究,2003, 20(12): 15-17.
[12] 邰杨芳,贾君枝. 基于汉语框架网络本体的问答式语义检索系统的分析与设计.图书情报工作,2010,54(12):113-118.
[作者简介] 邰杨芳,女,1974年生,讲师,硕士,发表论文12篇。
贾君枝,女,1972年生,教授,博士,发表论文54篇。

点赞:6200 浏览:17454