依存句法分析
1.
- 目标是分析句子的语法结构并将其表示为容易理解的结构(通常是树形结构)。
2. 短语结构树
短语结构语法 上下文无关文法
3.依存句法树
- 词与词之间存在主从关系。
- 二元不等价的关系。
- 在句子中,如果一个词修饰另一个词,则称修饰词为从属词( dependent ),被修饰的词语称为支配词(head),两者之间的语法关系称为依存关系( dependency relation)。
- 箭头方向由支配词指向从属词。
- 将一个句子中所有词语的依存关系以有向边的形式表示出来,就会得到一棵树,称为依存句法树( dependency parse tree)。
- 现代依存语法中,语言学家 Robinson 对依存句法树提了 4 个约束性的公理。
- 有且只有一个词语(ROOT,虚拟根节点,简称虚根)不依存于其他词语。
- 除此之外所有单词必须依存于其他单词。
- 每个单词不能依存于多个单词。
- 如果单词 A 依存于 B,那么位置处于 A 和 B 之间的单词 C 只能依存于 A、B 或 AB 之间的单词。
- 这 4 条公理分别约束了依存句法树(图的特例)的根节点唯一性、 连通、无环和投射性( projective )。这些约束对语料库的标注以及依存句法分析器的设计奠定了基础。
中文依存句法树库
- 目前最有名的开源自由的依存树库当属UD ( Universal Dependencies)
- 选取其中规模最大的 UD_ Chinese GSD 作为示例
- http://file.hankcs.com/corpus/chs-gsd-ud.zip
- 该树库的格式为 CoNLL-U,这是一种以制表符分隔的表格格式。CoNLL-U 文件有10列,每行都是一个单词, 空白行表示句子结束。单元中的下划线 _ 表示空白, 结合其中一句样例,解释如表所示。
- 可视化:工具如下:
- 南京大学汤光超开发的 Dependency Viewer。导入 .conll 扩展名的树库文件即可。
- brat 标注工具。
可视化工具可以帮助我们理解句法树的结构,比较句子之间的不同。