NLP工具——Stanza依存关系含义详解
- 1. 概要
- 2. 详细介绍
- 2.1 核心论元
- 2.1.1 nsubj: nominal subject(名词主语)
- 2.1.2 obj: object(宾语)
- 2.1.3 iobj: indirect object(间接宾语)
- 2.1.4 csubj: clausal subject(从句主语)
- 2.1.5 ccomp: clausal complement(从句补足语)
- 2.1.6 xcomp: open clausal complement(开放从句补足语)
- 2.2 非核心依存
- 2.2.1 obl: oblique nominal(间接名词)
- 2.2.2 vocative: vocative(呼格词)
- 2.2.3 expl: expletive(感叹词)
- 2.2.4 dislocated: dislocated elements(错位元素)
- 2.2.5 advcl: adverbial clause modifier(状语从句修饰语)
- 2.2.6 advmod: adverbial modifier(状语修饰语)
- 2.2.7 discourse: discourse element(语素)
- 2.2.8 aux: auxiliary(辅助词)
- 2.2.9 cop: copula(连接词)
- 2.2.10 mark: marker(标记词)
- 2.3 名义依存
- 2.3.1 nmod: nominal modifier(名词修饰语)
- 2.3.2 appos: appositional modifier(同位语修饰语)
- 2.3.3 nummod: numeric modifier(数字修饰语)
- 2.3.4 acl: clausal modifier of noun (名词的从句修饰语)
- 2.3.5 amod: adjectival modifier(形容词修饰语)
- 2.3.6 det: determiner(限定词)
- 2.3.7 clf: classifier(分类词)
- 2.3.8 case: case marking(格位标记)
- 2.4 广义依存关系
- 2.4.1 conj: conjunct(连词)
- 2.4.2 cc: coordinating conjunction(协调连词)
- 2.4.3 fixed: fixed multiword expression(固定多字表达式)
- 2.4.4 flat: flat multiword expression(扁平多字表达式)
- 2.4.5 compound: compound(复合表达式)
- 2.4.6 list: list(列表关系)
- 2.4.7 parataxis: parataxis(无连词并列)
- 2.4.8 orphan: orphan(孤立词)
- 2.4.9 goeswith: goes with(配合词)
- 2.4.10 reparandum: overridden disfluency(重复非流畅)
- 2.4.11 other(其他)
- 3. 速查表
1. 概要
stanza工具是一个基于python的NLP工具,这篇博客主要介绍依存关系中各种关系的含义,如果要了解这个工具的话可以参考其他文章,比如我朋友的这一篇:
但是我发现他博客中对句法结构关系的介绍是coreNLP的,而非stanza的,所以写这篇博客纠正一下。原网站还挺难找的,并不是在stanza的官网上介绍的,而是引用了另一个工具的帮助文档。
想迅速查找某个依存关系含义的同学可以直接看本文的第三部分,或点击目录快速跳转。
我把这个帮助文档的相关链接也贴出来,中文不好的同学可以直接去看原文档:
https://universaldependencies.org/u/dep/index.html
2. 详细介绍
所有的依存关系可以分为狭义依存和广义依存关系,其中,广义依存关系又可以分为核心论元(Core arguments),非核心依存(Non-core dependents)以及名义依存(Nominal dependents)。
下图中,上半部分是狭义依存关系,下半部分是不包含在狭义概念中的依存关系。
上半表中,纵列为依存的目录分类,依次为名词性(Nominals)、从句(Clauses)、修饰词(Modifier words),以及虚词(Function Words)。下面将对上半表的内容进行详细介绍。
2.1 核心论元
2.1.1 nsubj: nominal subject(名词主语)
名词主语(nsubj)是一个名词,它是句法结构主语,是从句的原型节点(这里的描述均为机翻+人工纠正)。被动语态下的特殊名词主语,被记作 nsubj:pass。直接看文档中给出的例子:
2.1.2 obj: object(宾语)
动词的宾语是动词中仅次于主语的第二大核心论元。
2.1.3 iobj: indirect object(间接宾语)
动词的间接宾语是任何作为动词核心论元的名词短语,但不是其主语或(直接)宾语。
但是,如果只有一个宾语存在,则不论语义分析的结果如何,都会被标记为obj,而非iobj。
2.1.4 csubj: clausal subject(从句主语)
从句主语是一个从句的从句句法主语,即主语本身就是一个从句。
2.1.5 ccomp: clausal complement(从句补足语)
动词或形容词的从句补语是一个从属从句,它是一个核心论元。
2.1.6 xcomp: open clausal complement(开放从句补足语)
动词或形容词的开放从句补足语(xcomp)是没有主语的谓语或从句补足语。
关于ccomp和xcomp的区别,可以看下图,主要在于是否可以将主句和从句完全切分开,前句的boss不一定执行了digging,而后句的we必然是digging的执行者。
2.2 非核心依存
2.2.1 obl: oblique nominal(间接名词)
obl是作为名词(名词、代词、名词短语)非核心的论元附属结构。
当指向被动语态的agent时,记作obl:agent:
2.2.2 vocative: vocative(呼格词)
称呼关系用于标记语篇中的对话参与者。
2.2.3 expl: expletive(感叹词)
不知道怎么翻译合适。看例子:
2.2.4 dislocated: dislocated elements(错位元素)
错位关系用于不符合句子通常核心语法关系的前置或后置元素。
2.2.5 advcl: adverbial clause modifier(状语从句修饰语)
状语从句修饰语是修饰动词或其他谓语(形容词等)的从句,作为修饰语而不是核心补语。
2.2.6 advmod: adverbial modifier(状语修饰语)
一个词的状语修饰语是修饰谓语或修饰词的非从句状语或状语短语。
2.2.7 discourse: discourse element(语素)
这用于感叹词和其他话语粒子和元素(除了表达方式外,与句子结构没有明确联系)。
2.2.8 aux: auxiliary(辅助词)
从句的辅助词是一个虚词,与表示时态、语气、语态或证据性等类别的动词谓词有关。
2.2.9 cop: copula(连接词)
连接词是一个虚词与非言语谓词之间的关系,包括身份谓词的表达(例如,“Kim是总统”之类的句子)。
2.2.10 mark: marker(标记词)
标记词是将一个从句标记为从属于另一个从句的词。
2.3 名义依存
2.3.1 nmod: nominal modifier(名词修饰语)
nmod关系用于另一个名词或名词短语的名词性从属词,在功能上对应于属性或属格补语。
2.3.2 appos: appositional modifier(同位语修饰语)
名词的同位语修饰语是紧跟在第一个名词之后的名词,用来定义、修饰、命名或描述该名词。
2.3.3 nummod: numeric modifier(数字修饰语)
名词的数字修饰语是用数量修饰名词含义的任何数字短语。
但是如果不是确定的数字,则会被标记为det:
2.3.4 acl: clausal modifier of noun (名词的从句修饰语)
acl表示一个名词的从句修饰语。
2.3.5 amod: adjectival modifier(形容词修饰语)
名词(或代词)的形容词修饰语是用来修饰名词(或代词)的任何形容词组。
2.3.6 det: determiner(限定词)
关系限定词(det)在名词与其限定词之间起作用。
2.3.7 clf: classifier(分类词)
英语中不会出现这类词。
2.3.8 case: case marking(格位标记)
2.4 广义依存关系
2.4.1 conj: conjunct(连词)
连词可以用来连接并列的名词,或并列的动词:
2.4.2 cc: coordinating conjunction(协调连词)
cc是连接词和前面的协调连接词之间的关系。
例子见2.4.1中第2个例子,也就是and。
2.4.3 fixed: fixed multiword expression(固定多字表达式)
固定关系是多词表达式(MWE)的三种关系之一(其他两种是扁平和复合关系)。
2.4.4 flat: flat multiword expression(扁平多字表达式)
是多词表达式的一种。
用于名称:
用于复杂数字和日期:
用于外来词汇:
2.4.5 compound: compound(复合表达式)
2.4.6 list: list(列表关系)
列表关系用于可比较项目的链。
2.4.7 parataxis: parataxis(无连词并列)
意合关系(源自希腊语的“并排放置”)是一个词(通常是句子的主要谓语)与其他元素之间的关系,如句子插入语或“:”或“;”后的从句,并排放置,与主词没有任何明确的协调、从属或论证关系。
这个有些复杂没太搞明白,建议看原文档的介绍。
2.4.8 orphan: orphan(孤立词)
孤立关系用于头部省略的情况。如下例子中,Peter和bronze之间的won省略了。
2.4.9 goeswith: goes with(配合词)
这种关系将单词的两个或多个部分链接在未经过良好编辑的文本中。
这个像是把分开了的子词纠正回一个完整的词。
2.4.10 reparandum: overridden disfluency(重复非流畅)
2.4.11 other(其他)
root(根节点):
punctuation(标点):
unspecified dependency(非确定依存):
3. 速查表
所有依存关系按照英文字母排序如下:
简写 | 全称 | 中文含义(部分机翻) |
acl | clausal modifier of noun (adnominal clause) | 名词的从句修饰语 |
acl:relcl | relative clause modifier | 关系从句修饰语 |
advcl | adverbial clause modifier | 状语从句修饰语 |
advmod | adverbial modifier | 状语修饰语 |
advmod:emph | emphasizing word, intensifier | 强调词、加强词 |
advmod:lmod | locative adverbial modifier | 位置状语修饰语 |
amod | adjectival modifier | 形容词修饰语 |
appos | appositional modifier | 同位语修饰语 |
aux | auxiliary | 辅助词 |
aux:pass | passive auxiliary | 被动助词 |
case | case marking | 格位标记 |
cc | coordinating conjunction | 协调连词 |
cc:preconj | preconjunct | 前连词 |
ccomp | clausal complement | 从句补足语 |
clf | classifier | 分类词 |
compound | compound | 复合表达式 |
compound:lvc | light verb construction | 轻动词结构 |
compound:prt | phrasal verb particle | 短语动词助词 |
compound:redup | reduplicated compounds | 重叠复合词 |
compound:svc | serial verb compounds | 连动复合词 |
conj | conjunct | 连词 |
cop | copula | 系动词 |
csubj | clausal subject | 从句主语 |
csubj:pass | clausal passive subject | 从句被动主语 |
dep | unspecified dependency | 非确定依存 |
det | determiner | 限定词 |
det:numgov | pronominal quantifier governing the case of the noun | 支配名词格的代词量词 |
det:nummod | pronominal quantifier agreeing in case with the noun | 与名词一致的代词量词 |
det:poss | possessive determiner | 物主限定词 |
discourse | discourse element | 语素 |
dislocated | dislocated elements | 错位元素 |
expl | expletive | 感叹词 |
expl:impers | impersonal expletive | 非人称感叹词 |
expl:pass | reflexive pronoun used in reflexive passive | 反身被动语态中的反身代词 |
expl:pv | reflexive clitic with an inherently reflexive verb | 带有固有反身动词的反身代词 |
fixed | fixed multiword expression | 固定多字表达式 |
flat | flat multiword expression | 扁平多字表达式 |
flat:foreign | foreign words | 外来词扁平多字表达式 |
flat:name | names | 名称扁平多字表达式 |
goeswith | goes with | 配合词 |
iobj | indirect object | 间接宾语 |
list | list | 列表关系 |
mark | marker | 标记 |
nmod | nominal modifier | 名词修饰语 |
nmod:poss | possessive nominal modifier | 所有格名词修饰语 |
nmod:tmod | temporal modifier | 时间修饰 |
nsubj | nominal subject | 名词主语 |
nsubj:pass | passive nominal subject | 被动名词主语 |
nummod | numeric modifier | 数字修饰符 |
nummod:gov | numeric modifier governing the case of the noun | 控制名词大小写的数字修饰语 |
obj | object | 宾语 |
obl | oblique nominal | 间接名词 |
obl:agent | agent modifier | 间接名词,被动语态的发出者 |
obl:arg | oblique argument | 间接名词论元 |
obl:lmod | locative modifier | 间接名词,位置修饰语 |
obl:tmod | temporal modifier | 间接名词,时间修饰语 |
orphan | orphan | 孤立词 |
parataxis | parataxis | 无连词并列 |
punct | punctuation | 标点 |
reparandum | overridden disfluency | 重复非流畅 |
root | root | 根节点 |
vocative | vocative | 呼格词 |
xcomp | open clausal complement | 开放从句补足语 |
整理不易,如果对你有所帮助,记得点赞支持。如果有不准确的地方,还请在评论区指出纠正。