您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 指称语义 >

NLP+语篇分析(五)︱中文语篇分析研究现状(CIPS2016)

发布时间:2019-07-14 01:15 来源:未知 编辑:admin

  摘录自:CIPS2016 中文信息处理报告《第三章 语篇分析研究进展、现状及趋势》P21 CIPS2016

  NLP+词法系列(二)︱中文分词技术及词性标注研究现状(CIPS2016)

  语篇分析又称话语分析或篇章分析,是对“ 语篇” 整体进行的分析,包括语篇基本单元之间的关系,不同语篇单元的成份间关联以及语篇所含的信息等等。

  语篇是由一个以上的句子( sentence)或语段( utterance)构成的。一篇文章、一段会话等都可以看成语篇。构成语篇的句子(或语段)彼此之间在形式上相互衔接,在意义上前后连贯。

  例如,句子“你能穿多少就穿多少”,如果独立理解,至少有二种意思:一种是表示尽量少穿,另一种则是尽量多穿。这二种相反的意思对应着二种不同的分词结果:“你/ 能/ 穿/ 多/ 少/就/ 穿/ 多/ 少”和“你/ 能/ 穿/ 多少/ 就/ 穿/ 多少”。若不利用上下文信息,很难判断哪一种是合适的

  在 RST 树结构的分析过程中,关联性强的单元先通过修辞关系进行组合,形成大的语篇单元,大的语篇单元再形成更大的语篇单元,直至形成一棵覆盖语篇所有单元的树。一般来说,在同一段落内的语篇单元关系要强于不同段落之间的语篇单元。

  因此,通常是先进行段内的语篇单元关系分析,之后再分析段落之间的关系。 RST 树的构成过程,类似于短语结构树的分析过程,语篇单元(通常是小句)类似句法中的词,这就可以借鉴语法分析中的很多算法,例如移进归约算法、 CYK 算法等。

  依存分析结果也是一颗树,但和 RST 树不同,句子之间直接建立依存关系,不再含有中间节点。语篇依存结构的单元之间以非对称的二元依存关系连接。

  其中,称依靠单元为“从属单元”( bordinate),称被依靠的单元为“中心单元”( head)。

  利用语篇依存树表示依存结构时,需要在依存树起始位置插入一个人工单元,称之为 e0,并视之为该语篇的根( Root),以此简化定义与计算过程

  在进行语篇关系的确定时,由于隐含语篇关系缺乏可直接作为特征的显式连接词,相对于含连接词的显式关系分析更具挑战性。

  对于隐式关系的识别,研究者们一般采用有监督学习的思路,将其作为一个分类问题进行处理。包括设计各类特征训练分类器,尝试使用机器学习的各类方法来提升分类器的效果。

  近年来,也开始有研究者尝试使用深度神经网络的方法,基本思想是,首先对句子对进行建模,学习其语义表示,之后再对两个表示进行组合,最终将组合后的特征向量输入,预测得到隐式语篇关系的分布。

  由于标注语料的不足,半监督的方法也开始用于隐式关系的识别。这一类方法通过同时使用标注和无标注的语料,从大规模的无标注语料中学习语篇特征,并能够较大幅度的提高对一些出现频率较少的关系的识别效果。有研究者首先在无标注的语料上训练可以预测句子间连接词的模型,再将这个模型得到的预测结果,作为隐式关系识别的一个特征。这种方法利用了显式连接词与隐式关系之间的联系,巧妙地从无标注的数据中获得了有助于识别隐式关系的信息。

  语篇的衔接性分析是指从词汇层面分析语篇内的概念关系,主要包括指代关系、省略关系、替换关系和词汇衔接性。词汇衔接又表现为词汇重复、同义或近义、反义、上下位义、整体与部分以及搭配六种。具有衔接关系的词可以通过一个链表示,称为词汇链。

  指代或同指关系是构建词汇链的一个重要内容。如果两个词或短语具有同指关系,那么它们应该属于同一词汇链。

  所谓同指,是指两个名词之间,或者名词与代词之间具有相同的指称语义( referent)。

  同指关系是等价关系。指代是指由一个代词来表示上下文中某个名词或名词短语所指示的实体或实体的某个部分。语篇中第一次指示实体的名词或名词短语称为先行语( antecedent)。

  先行语通常会先于代词出现,此时的指代关系也称为回指( anaphora);在有些情况下,也可能先出现代词,后出现先行语,此时的指代关系则称为预指( cataphoric reference)。

  基本思想是将每个指称语表示为特征(组合),再根据特征组合判断指称语之间是否具有同指(或等价)关系。这可以看成分类问题,按二分类情况判断为同指或不同指;也可以看成为排序问题,计算当前指称语与其它指称语之间的排序关系,将排序最后的作为同指关系;还可以看成聚类问题,即,对所有指称语进行聚类,形成若干聚类子集,位于同一子集的看成同指关系。

  具体对汉语而言,还有一个更基本的问题是语篇基本单元的界定。目前,有两种最具代25表性的观点:

  对于( a)而言,在语篇分析之前必须给出小句的判断方法。一种最直接的方法就是句法分析,但句法分析本身又是很难的问题。

  对( b)而言,仍然面临( a)的问题,汉语中标点句可能只是一个短语,如例 1 中的①,而语篇关系应该在句法之上,否则,就意味着还需要分析句法结构。汉语的语篇分析需要破解这一怪圈。

  相比西方语系讲究句子结构的完整性,汉语则更加追求经济性或简洁性,即能省则省,其结果会导致大量的 0-形式:

  ①我自来是如是,②从会吃饮食时便吃药,③到今未断。④请了多少名医,⑤修方配药,⑥皆不见效。

  其中的③,既缺失了主语,也缺失了宾语;对于⑤而言,缺失的主语由④的宾语表示,目前的指代消解方法不容易正确判断。如果用中心理论,⑤缺失的主语优先和④的主语一致,这就会出现错误。此外,例 1 中翻译的很多错误也是 0-形式导致的。

  进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》     篇章分析的最终目标是从整体上理解篇章,最重要的任务是分析篇章结构。篇章结构包括:语义结构,话题结构,指代结构等。一、基本理论...博文来自:alihonglong的专栏

  我们在读书的过程中经常会做英文的阅读理解,那么如何快速的提取文章的中心句呢,gensim这个包提供了很好的接口:#文章中心句提取fromgensimimportcorporafromgensimimp...博文来自:聂鲁达的博客

  歧义问题方面,笔者一直比较关注利用词向量解决歧义问题:也许你寄希望于一个词向量能捕获所有的语义信息(例如run即是动车也是名词),但是什么样的词向量都不能很好地进行凸显。这篇论文有一些利用词向量的办法...博文来自:素质云笔记/Recorder...

  《精通Python自然语言处理》DeeptiChopra(印度)王威译第九章语篇分析:理解才是可信的9.1语篇分析简介语篇分析是执行文本或语言分析的过程,其包含了文本解释以及对社交互动的理解。NLTK...博文来自:Mr.小白

  Matplotlib是Python中最常用的可视化工具,可以非常方便的生成出版质量级的图片,只需几行代码,就可以生成直方图、功率谱、条形图、错误图、散点图、饼图以及基本的3D图表。在使用中一般使用...博文来自:weixin_34117211的博客

  《精通Python自然语言处理》DeeptiChopra(印度)王威译第十章NLP系统评估:性能分析10.1NLP系统评估要点创建黄金标准注释语料库是一项主要的任务,而且其实成本也是非常昂贵的。它通过...博文来自:Mr.小白

  自然语言处理(NaturalLanguageProcessing简称NLP)是人工智能领域非常重要的一部分,作为计算机科学中一门重要的学科,研究它的目的是为了解决人机对话问题,通俗理解就是让智能设...博文来自:阿拉灯神丁Vicky

  保留初心,砥砺前行这是上一次GANforNLP的讨论记录,需要的同学拿去享用:记录一次与大神们的关于GAN应用于NLP的讨论这次的讨论可能是因为题目不够大众,或者是做这方面的同学们太过羞涩,因此讨论的...博文来自:加勒比海鲜王

  *排名不分先后。收集不全,欢迎留言完善。清华大学自然语言处理与社会人文计算实验室     清华大学智能技术与系统国家重点实验...博文来自:Just for fun的专栏

  一、什么是指代消解?1、指代的基本概念指代作为一种常见的语言现象,广泛存在于自然语言的各种表达中。eg:***俄罗斯总统***在德国发表讲话时表示:“我们不排除中油集团参与已拍卖的尤甘斯克的生产。”*...博文来自:锦年的博客

  在自然语言学习过程中,每个人一定都学过语法,例如句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,因此研究语法解析变得非常重要。语法解析有两个主要的问题,其...博文来自:Allan的专栏

  AI前线导读:随着人工智能的再次兴起,尤其是深度学习的成功应用,自然语言处理(NLP)也逐渐受到了科研研所、高校以及相关企业的关注,也成为了人工智能重点研究的课题之一。NLP的主要目标是解决人机对话中...博文来自:古月哲亭

  方栗子发自凹非寺量子位出品公众号QbitAI最近,有一份自然语言处理(NLP)进展合辑,一发布就受到了同性交友网站用户的疯狂标星,已经连续3天高居G......博文来自:量子位

  重大进展DL在很多常见的NLP任务中取得了顶尖的结果,如命名实体识别(NER)、词性标注(POStagging)或情感分析,在这些任务中神经网络模型优于传统方法。而机器翻译的进步或许是最显著的。从训练...博文来自:明日世界

  作者刘焕勇,语言学硕士,目前就职于中国科学院软件研究所,主要从事信息抽取,知识图谱,情感分析,社会计算等自然语言处理研发工作,兴趣包括:语言资源构建、信息抽取与知识图谱......博文来自:AI科技大本营

  这篇是何继红、张德禄一篇发表在《外语与外语教学》上的一篇论文,本文是其个人读后感和一些想法。1.摘要这篇文章中,主要针对的是语篇结构和类型、层级性和分析模式的研究,着重对于语篇的结构类型进行了相关的探...博文来自:刘炫320的博客

  1.语法:内容,形式,方式;2.语法学:语法形式、语法意义,语法形式,也叫语法手段;3.句群:4.构词法:5.语篇分析:【内容与形式,功能与手段】...博文来自:的博客

  第六章文本的情感分析研究 6.1引言传统上的文本分类往往关注于把文本映射到给定的主题,如体育,经济,政治等[122]。然而,近些年来对文本非主题分析的兴趣不断增加,Biber[123]的工作把文本就其...博文来自:summerbell

  篇章分析的理论和应用一、篇章分析的理论衔接性分析衔接性:篇章范围内词汇之间的关联。一个成分的含义依赖于另一成分的解释连贯性:句子层⾯面的意义关联篇章的衔接性可以分成两类,前者是借助一系列的语法手段,⽽...博文来自:FionaJYX的博客

  先介绍文本情感分析主要的数据集:StanfordSentimentTreebank   11855个句子划分为239231个短语,每个短语有个概率值,越小越负面,越大越正面链接IMDB 100,000...博文来自:一路狂奔的猪的博客

  微软亚洲研究院自然语言计算组清华大学自然语言处理与社...博文来自:weixin_36711901的博客

  摘录自:CIPS2016中文信息处理报告《第一章词法和句法分析研究进展、现状及趋势》P8-P11CIPS2016中文信息处理报告下载链接:博文来自:素质云笔记/Recorder...

  这篇文章主要讲解基于向量空间模型(VectorSpaceModel)的相关应用,包括命名实体识别、实体消歧和跨文本指代消解;其最终目的是想通过它应用到知识图谱构建过程中,即实体对齐和属性对齐。目录:一...博文来自:杨秀璋的专栏

  摘录自:CIPS2016中文信息处理报告《第二章语义分析研究进展、现状及趋势》P14CIPS2016gt;中文信息处理报告下载链接:博文来自:素质云笔记/Recorder...

  来源:专知摘要:2018年9月9日-14日,DeepMind主办的DeepLearningIndaba2018大会在南非斯泰伦博斯举行。会上,斯坦陵布什大......博文来自:人工智能学家

  为了这份爱在过去的几个月中,我一直在收集自然语言处理(NLP)以及如何将NLP和深度学习(DeepLearning)应用到聊天机器人(Chatbots)方面的最好的资料。时不时地我会发现一个出色的资源...博文来自:Just for fun的专栏

  来源于jasonfreak做个存档目录1特征工程是什么?2数据预处理2.1无量纲化2.1.1标准化2.1.2区间缩放法2.1.3标准化与归一化的区别2.2对定量特征二值...博文来自:心之所向

  本文阐述了自然语言处理/NLP的相关术语及其简单的应用场景。包括:词性标注、分词、命名实体识别、句法分析、指代消解等问题结合例子做了解释。...博文来自:wangongxi的专栏

  前面的章节重点关注词:如何识别它们,分析它们的结构,给它们分配词汇类别,以及获得它们的含义。目的是要回答下列问题:(1)如何使用形式化语法来描述无限的句子集合的结构?(2)如何使用句法树来表示句子结构...博文来自:Just for fun的专栏

  本文翻译的是这篇文章在过去的很多年里,深度学习架构和算法在某些领域,比如图像识别和语音处理,取得了令人印象深刻的进展。最初,深度学习架构和算法在NLP领域并没能取得大的进展,但是最近深度学习在普通NL...博文来自:Forgive Me

  作者通过本文概述了2017年深度学习技术在NLP领域带来的进步,以及未来的发展趋势,并与大家分享了这一年中作者最喜欢的研究。2017年是NLP领域的重要一年,深度学习获得广泛应用,并且这一趋势还会持续...博文来自:机器之心

  利用无监督学习手段对特朗普的twitter数据进行主题分析,得到16个主题关键词列表;计算每条推特与主题的相似度,并据此得到一些统计结论。...博文来自:Aaronji1222的博客

  NLP中很多问题要求解的输出标签不是相互独立的,而是时间或结构上相互依存的结构化标签。这种结构包括序列、树状或更普通意义上的图结构。而对于中文分词、词性标注、组块标注、浅层语法分析等任务,标记和切分观...博文来自:Just for fun的专栏

  转自:中文词法分析(LAC)本项目依赖Paddlev0.14.0版本。如果您的Paddle安装版本低于此要求,请按照安装文档中的说明更新Padd...博文来自:渴望飞的鱼的博客

  对于英文文本分句比较简单,只要根据终结符.划分就好,中文文本分句看似很简单,但是实现时会遇到很多麻烦,尤其是处理社交媒体数据时,会遇到文本格式不规范等问题。下面代码针对一段一段的短文本组成了文档分...博文来自:Belle_zhe的博客

  干货满满的深度强化学习综述(中文) 来源说明 引用:深度强化学习综述作者:刘全,翟建伟,章宗长...博文来自:喜欢打酱油的老鸟

  一、什么是指代消解?1、指代的基本概念指代作为一种常见的语言现象,广泛存在于自然语言的各种表达中。eg:***俄罗斯总统***在德国发表讲话时表示:“我们不排除中油集团参与已拍卖的尤甘斯克的生产。”*...博文来自:GOODDEEP

  整理至11月中旬在重庆参加的自然语言处理与大数据会议,第一讲为自然语言处理,主讲人为北大副教授万小军。由基本理论到实际运用,整理了基本的框架。以词性标注,句法分析,语法分析,篇章分析的顺序概括讲解了N...博文来自:ice110956的专栏

  第一章词法和句法分析研究进展、现状及趋势1.自然语言处理中的自然语言句子级分析技术,可以大致分为词法分析、句法分析、语义分析三个层面。第一层面的词法分析(lexicalanalysis)包括汉语分词和...博文来自:yuquanle的博客

  NLP分析技术大致分为三个层面:词法分析、句法分析和语义分析。博文来自:bigfacesafdasgfewgf

  上前几节我们简单介绍了命名体识别的算法,其实主要的方法就是HMM和CRF了,因为可以转换为标注问题,这里都可以使用HMM和CRF,本节我们将介绍另外一个重要的知识点即词性标注,同样的在宗老师的书里都有...博文来自:进击的菜鸟

  jquery/js实现一个网页同时调用多个倒计时(最新的)nn最近需要网页添加多个倒计时. 查阅网络,基本上都是千遍一律的不好用. 自己按需写了个.希望对大家有用. 有用请赞一个哦!nnnn//jsn...博文来自:Websites

  command窗口是命令窗口,即为sqplus窗口,有命令提示符,识别sqlplus命令,基本的命令都可以执行nsql仅可执行DDL、select、DML等...博文来自:Ape55的博客

  说明n网上关于caffe的安装教程非常多,但是关于每一步是否操作成功,出现了什么样的错误又该如何处理没有给出说明。因为大家的操作系统的环境千差万别,按照博客中的教程一步步的安装,最后可能失败——这是很...博文来自:张学志の博客

  之前在工作中利用postman做了接口测试,发现这个东东其实还挺好用的,我个人喜欢总结于是乎有了下面的东西。方便以后查阅或修改。n1.首先postman的安装参及简单介绍考以下的链接:n       ...博文来自:JOJOY的博客

  话说上次配置PCL开发环境失败;rn估计可能是环境变量没配置好;下面从新搞一...博文来自:bcbobo21cn的专栏

  扫二维码关注,获取更多技术分享nnn 本文承接之前发布的博客《 微信支付V3微信公众号支付PHP教程/thinkPHP5公众号支付》必须阅读上篇文章后才可以阅读这篇文章。由于最近一段时间工作比较忙,...博文来自:Marswill

  最近比较有空,大四出来实习几个月了,作为实习狗的我,被叫去研究Docker了,汗汗!nnDocker的三大核心概念:镜像、容器、仓库n镜像:类似虚拟机的镜像、用俗话说就是安装文件。n容器:类似一个轻量...博文来自:我走小路的博客

  webService学习(二)—— 调用自定义对象参数rn本文主要内容:rn1、如何通过idea进行webService Client的简单实现(不再使用wsimport的方式,其实是ide帮我们做了...博文来自:止水的专栏

  自己整理编写的逻辑回归模板,作为学习笔记记录分享。数据集用的是14个自变量Xi,一个因变量Y的australian数据集。nnn1. 测试集和训练集3、7分组naustralian ...博文来自:Tiaaaaa的博客

  授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。

  技术与技法日进千里,快速迭代过程中,真正能够留下的是应用场景的重构与对新商业范式的思考。

  gensim-fast2vec改造、灵活使用大规模外部词向量(具备OOV查询能力)

  极简主义︱使用Turicreate进行快速图像分类迁移训练与预测(六)

  keras-yolov3 + Kalman-Filter 进行人体多目标追踪(含代码)

  sinat_26917383:看你的损失函数,是mae还是mse,如果是mse,不是线性的,那么就会出现loss和acc同时降低,此时已经过拟合

  sinat_26917383:如果还没有,那么可能这个词确实很冷门,或者你可以考虑忽略,或者找出这些词用相似词替代,或者你可以有一个“后补”的字向量,字向量可以更好的拼接

http://acetechpng.com/zhichenyuyi/286.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有