好运快3_一分快3官方哈工大 AAAI 2018 录用论文解读:基于转移的语义依存图分析 | 分享总结

  • 时间:
  • 浏览:23
  • 来源:彩神网快3官方-彩神网快三

雷锋网AI科技评论按:语义依存是中文语义的深度1分析,完善的语义好运快3_一分快3官方表示体系对语义依存分析有重要作用好运快3_一分快3官方。本文介绍的工作来自哈工大 S好运快3_一分快3官方cI好运快3_一分快3官方R 实验室录用于 AAAI 2018 的论文《A Neural Transition-Based Approach for Semantic Dependency Graph Parsing》。

在近期雷锋网 GAIR 大讲堂举办的线上公开课上,来自哈尔滨工业大学在读博士生王宇轩分享了一篇他在 AAAI 2018 投中的论文:基于转移的语义依存图分析。

以下是王宇轩同学在线上直播课上的分享内容,雷锋网(公众号:雷锋网)编辑做了简要回顾,完整篇 视频回放链接请点击:http://www.mooc.ai/open/course/308

分享内容:

同学们,大伙 好,今天主要分享的是用三种基于转移的方法来进行语义依存图的分析。

首先介绍一下你有些是语义依存分析。语义依存图是近年来提出的对树特征句法或语义表示的扩展,它与树特征的主要区别是允许有些词拥有多个父节点,从而使其成为有向无环图(direct edacyclic graph,DAG)。

右上图是2012年和北京语言大学企业协作定义和标注的语义依存树,通过有些依存弧把得话中含语义关系的词连接起来。它是树特征,有些有些成为语义依存树。右下角是语义依存图特征,可能在依存树里边,有有些词之间的关系受限于树特征,不到很好刻画,有些有些就引入了依存图概念。

语义依存图与传统树特征的区别

左上第一个多多多是句法依存树,里边为语义依存树,最下面是语义依存图。图特征与那我传统的树特征表示最大的不同只要趋于稳定有多个父节点,比如图中的“大伙 ”趋于稳定一个多多多父节点。

上图左边一个多多多特征是另三种语义依存图特征。它们是在英文语料上进行标注,只要有三种标注规范,分别是DM、PAS、PSD。由此还需要看出在同一个多多多得话中,可能标注规范不同,图特征也是不同的。这是依存图的第一个多特点,具有多种标注规范。第一个多多多特点事具有非投射性,弧之间有交叉。

语义依存图实际上只要有向无环图, 这篇论文的目的只要提出一个多多多能适应多种标注规范的有向无环图的一个多多多分析器。

大伙 采用的是基于转移的语义依存分析方法。该方法主要分为两部分特征,一是预测,好运快3_一分快3官方二是执行。预测部分是由一个多多多分类器实现。执行部分需要一个多多多转移算法 ,包括有些预定义的转移动作等。

关于转移系统

首先有个缓存(buffer),用来保存将要正确处理的词。接下来是一个多多多栈(stack),保存正在正确处理的词。还需要四个多多多存储器(memory),用来记录可能生成的弧。最后是一个多多多deque, 暂时跳过有些词。转移请况包括一个多多多保存正在正确处理中的词的栈(Stack),一个多多多保存待正确处理词的缓存(Buffer),和一个多多多记录可能生成的依存弧的存储器。

用来正确处理传统依存树特征的转移系统,以Choi等人在2013年提出的转移系统为例。

生成图中标红的弧线,首不能自己通过一个多多多LEFT-REDUCE转移动作,LEFT是生成一条由缓存顶的词指向栈顶词的一条弧,REDUCE,是指生成弧很久,将栈顶词消除掉。

怎么才能 才能 生成图中黄色的弧,首先执行一个多多多LEFT-PASS转移动作,暂时不把“他”消除,经过一系列转移动作,再执行LEFT-REDUCE交互, 消除“他”。

接下来是用一个多多多具体例子介绍整个转移系统,包括更多的转移动作,具体可观看视频回放。

基于转移的语义依存分析方法中的分类器

图中的分类器趋于稳定有些问题 ,缓存会损失有些信息,可能缓存不到通过单向LSTM学到正在缓存中的词的表示,另外可能它是一个多多多从右到左的单向LSTM,只要它会损失从左到右这部分信息。

为了正确处理你有些问题 ,大伙 提出了Bi-LSTM模块

大伙 提出的Incremental Tree-LSTM和传统的Dependency-Based Recursive NN效果对比

关于Incremental Tree-LSTM

图中大写ABCD代表一个多词,下面的小写还需要认为它的向量化表示。

首相生成一个多多多A指向B的弧,把A和B的子向量一并贴到 一个多多多LSTM单元里边,组合起来用a+b表示,贴到 A下面,以此类推,每次找到新的子节点回会把那我已找到的子节点拿来一并输入,就不必损失C的信息。

里边提出的一个多多多模块儿替换那我转移系统后的效果图

实验结果

简单介绍一下得到的实验结果,首先是在一个多多多中文语义依存图的数据集SemEval 2016 Task9进行实验,其中最重要的一个多多多评测指标LF和NLF。图中BS是增加了第三种模块后的性能,IT是增加第一个多模块儿后的性能,BS-ST是一个多多多模块一并使用后整个模型的性能。

大伙 的模型和有些模型的性能对比

接下来是在SemEval 2015 Task 18上的英语数据集上的实验。你有些数据的测试集包括两部分,紫色(in-domain)是指和训练数据来自同领域的数据,绿色(out-of-domain)是指和训练数据来自不同领域的数据,有些有些性能表现只要一样。

值得一提的是,大伙 的模型还需要通过模型融合的方法,在训练过程中用不同的随机化种子,训练多个模型, 在预测的很久,用多个模型分别进行预测,得到多个当前请况下要执行的转移动作的概率分布,把多个概率分布对应的叠加起来,作为接下来判定的标准,那我的简单模型融合对模型性能有较大的提升效果。

最后给大伙 安利一个多多多大伙 实验室的中文语言正确处理工具包,包括最底层的分词,词性标注,老是到上层的句法分时,语义分析都不能提供。还需要下载到本地直接使用,也还需要通过接口在线接入。

以上只要完整篇 的分享内容。

雷锋网更多公开课直播预告敬请关注公众号「AI 研习社」。可能错过了直播课程,还可到AI慕课学院查找该期的视频回放。

雷锋网原创文章,未经授权禁止转载。详情见转载须知。