自然语言处理自己标注一个语料库

转载

mob64ca1412ee79 2024-09-13 20:11:33

文章标签 自然语言处理自己标注一个语料库自然语言处理词性标注基本方法 文章分类 NLP 人工智能

第1章绪论

1.1 基本概念

1.1.1 语言学与语音学
1.1.2 自然语言处理
1.1.3 关于“理解”的标准

1.2 自然语言处理研究的内容和面临的困难

1.2.1 自然语言处理研究的内容
1.2.2 自然语言处理涉及的几个层次
1.2.3 自然语言处理面临的困难

1.3 自然语言处理的基本方法及其发展

1.3.1 自然语言处理的基本方法
1.3.2 自然语言处理的发展

1.4 自然语言处理的研究现状

1.5 本书的内容安排

第2章预备知识

2.1 概率论基本概念

2.1.1 概率
2.1.2 最大似然估计
2.1.3 条件概率
2.1.4 贝叶斯法则
2.1.5 随机变量
2.1.6 二项式分布
2.1.7 联合概率分布和条件概率分布
2.1.8 贝叶斯决策理论
2.1.9 期望和方差

2.2 信息论基本概念

2.2.1 熵
2.2.2 联合熵和条件熵
2.2.3 互信息
2.2.4 相对熵
2.2.5 交叉熵
2.2.6 困惑度
2.2.7 噪声信道模型

2.3 支持向量机

2.3.1 线性分类
2.3.2 线性不可分
2.3.3 构造核函数

第3章形式语言与自动机

3.1 基本概念

3.1.1 图
3.1.2 树
3.1.3 字符串

3.2 形式语言

3.2.1 概述
3.2.2 形式语法的定义
3.2.3 形式语法的类型
3.2.4 CFG识别句子的派生树表示

3.3 自动机理论

3.3.1 有限自动机
3.3.2 正则文法与自动机的关系
3.3.3 上下文无关文法与下推自动机
3.3.4 图灵机
3.3.5 线性界限自动机

3.4 自动机在自然语言处理中的应用

3.4.1 单词拼写检查
3.4.2 单词形态分析
3.4.3 词性消歧

第4章语料库与语言知识库

4.1 语料库技术

4.1.1 概述
4.1.2 语料库语言学的发展
4.1.3 语料库的类型
4.1.4 汉语语料库建设中的问题
4.1.5 典型语料库介绍

4.2 语言知识库

4.2.1 WordNet
4.2.2 FrameNet
4.2.3 EDR
4.2.4 北京大学综合型语言知识库
4.2.5 知网
4.2.6 概念层次网络

4.3 语言知识库与本体论

第5章语言模型

5.1 n元语法

5.2 语言模型性能评价

5.3 数据平滑

5.3.1 问题的提出
5.3.2 加法平滑方法
5.3.3 古德-图灵(Good-Turing)估计法
5.3.4 Katz平滑方法
5.3.5 Jelinek-Mercer平滑方法
5.3.6 Witten-Bell平滑方法
5.3.7 绝对减值法
5.3.8 Kneser-Ney平滑方法
5.3.9 算法总结

5.4 其他平滑方法

5.4.1 Church-Gale平滑方法
5.4.2 贝叶斯平滑方法
5.4.3 修正的Kneser-Ney平滑方法

5. 5 平滑方法的比较

5.6 语言模型自适应方法

5.6.1 基于缓存的语言模型
5.6.2 基于混合方法的语言模型
5.6.3 基于最大熵的语言模型

第6章概率图模型

6.1 概述

6.2 贝叶斯网络

6.3 马尔可夫模型

6.4 隐马尔可夫模型

6.4.1 求解观察序列的概率
6.4.2 维特比算法
6.4.3 HMM的参数估计

6.5 层次化的隐马尔可夫模型

6.6 马尔可夫网络

6.7 最大熵模型

6.7.1 最大熵原理
6.7.2 最大熵模型的参数训练

6.8 最大熵马尔可夫模型

6.9 条件随机场

第7章自动分词、命名实体识别与词性标注

7.1 汉语自动分词中的基本问题

7.1.1 汉语分词规范问题
7.1.2 歧义切分问题
7.1.3 未登录词问题

7.2 汉语分词方法

7.2.1 N-最短路径方法
7.2.2 基于词的n元语法模型的分词方法
7.2.3 由字构词的汉语分词方法
7.2.4 基于词感知机算法的汉语分词方法
7.2.5 基于字的生成式模型和区分式模型相结合的汉语分词方法
7.2.6 其他分词方法
7.2.7 分词方法比较

7.3 命名实体识别

7.3.1 方法概述
7.3.2 基于CRF的命名实体识别方法
7.3.3 基于多特征的命名实体识别方法

7.4 维吾尔语人名识别方法研究

7.5 词性标注

7.5.1 概述
7.5.2 基于统计模型的词性标注方法
7.5.3 基于规则的词性标注方法
7.5.4 统计方法与规则方法相结合的词性标注方法
7.5.5 词性标注中的生词处理方法

7.6 词性标注的一致性检查与自动校对

7.6.1 词性标注一致性检查方法
7.6.2 词性标注自动校对方法

7.7关于技术评测

第8章句法分析

8.1 句法结构分析概述

8.1.1 基本概念
8.1.2 语法形式化
8.1.3 基本方法

8.2 基于PCFG的基本分析方法

8.2.1 PCFG
8.2.2 面向PCFG的内向外向算法
8.2.3 选择句子的最佳结构
8.2.4 PCFG的概率参数估计
8.2.5 分析实例

8.3 词汇化的短语结构分析器

8.4 非词汇化句法分析器

8.5 其他相关研究

8.5.1 PCFG方法的改进
8.5.2 数据驱动的分析方法
8.5.3 语义信息的利用

8.6 短语结构分析器性能评价

8.6.1 评价指标
8.6.2 短语结构分析器性能比较

8.7 层次化汉语长句结构分析

8.7.1 标点符号在句法分析中的作用
8.7.2 层次化汉语长句结构分析的思路
8.7.3 汉语标点符号的分类
8.7.4 句法规则提取方法
8.7.5 HP分析算法

8.8 浅层句法分析

8.8.1 概述
8.8.2 基本名词短语的定义
8.8.3 基于SVM的base NP识别方法
8.8.4 基于WINNOW的base NP识别方法
8.8.5 基于CRF的base NP识别方法

8.9 依存语法理论简介

8.10 依存句法分析

8.10.1 概述
8.10.2 生成式依存分析方法
8.10.3 判别式依存分析方法
8.10.4 确定性依存分析方法
8.10.5 其他相关研究
8.10.6 基于序列标注的分层式依存分析方法

8.11 依存分析器性能评价

8.11.1 评价指标
8.11.2 依存分析性能比较

8.12 短语结构与依存结构之间的关系

第9章语义分析

9.1 词义消歧概述

9.2 有监督的词义消歧方法

9.2.1 基于互信息的消歧方法
9.2.2 基于贝叶斯分类器的消歧方法
9.2.3 基于最大熵的词义消歧方法

9.3 基于词典的词义消歧方法

9.3.1 基于词典语义定义的消歧方法
9.3.2 基于义类辞典的消歧方法
9.3.3 基于双语词典的消歧方法
9.3.4 Yarowsky算法及其相关研究

9.4 无监督的词义消歧方法

9.5 词义消歧系统评价

9.6 语义角色标注概述

9.7 语义角色标注基本方法

9.7.1 自动语义角色标注的基本流程
9.7.2 基于短语结构树的语义角色标注方法
9.7.3 基于依存关系树的语义角色标注方法
9.7.4 基于语块的语义角色标注方法
9.7.5 语义角色标注的融合方法

9.8 语义角色标注的领域适应性问题

9.9 双语联合语义角色标注方法

9.9.1 基本思路
9.9.2 系统实现
9.9.3 实验

第10章篇章分析

10.1 基本概念

10.2 基本理论

10.2.1 言语行为理论
10.2.2 中心理论
10.2.3 修辞结构理论
10.2.4 脉络理论
10.2.5 篇章表示理论

10.3 篇章衔接性研究

10.3.1 基于指代消解的衔接性相关研究
10.3.2 基于词汇衔接的衔接性相关研究

10.4 篇章连贯性研究

10.4.1 基于信息性的连贯性相关研究
10.4.2 基于意图性的连贯性相关研究

10.5 篇章标注语料库

10.6 关于汉语篇章分析

第11章统计机器翻译

11.1 机器翻译概述

11.1.1 机器翻译的发展
11.1.2 机器翻译方法
11.1.3 机器翻译研究现状

11.2 基于噪声信道模型的统计机器翻译原理

11.3 IBM的5个翻译模型

11.3.1 模型1
11.3.2 模型2
11.3.3 模型3
11.3.4 模型4
11.3.5 模型5

11.4 基于HMM的词对位模型

11.5 基于短语的翻译模型

11.5.1 模型演变
11.5.2 短语对抽取方法

11.6 基于柱搜索的解码算法.

11.7 基于最大熵的翻译框架

11.7.1 模型介绍
11.7.2 对位模型与最大近似
11.7.3 对位模板
11.7.4 特征函数
11.7.5 参数训练

11.8 基于层次短语的翻译模型

11.8.1 概述
11.8.2 模型描述
11.8.3 参数训练
11.8.4 解码方法

11.9 树翻译模型

11.9.1 树到树的翻译模型
11.9.2 树到串的翻译模型
11.9.3 串到树的翻译模型

11.10 树模型的相关改进

11.10.1 源语言句法增强的串到树翻译模型
11.10.2 基于无监督树结构的翻译模型

11.11 句法模型解码算法

11.12 基于谓词论元结构转换的翻译模型

11.13 各种翻译模型的分析

11.14 集外词翻译

11.14.1 数字和时间表示的识别与翻译
11.14.2 命名实体翻译
11.14.3 普通集外词的翻译

11. 15 统计翻译系统实现

11. 16 系统融合

11.16.1 句子级系统融合
11.16.2 短语级系统融合
11.16.3 词汇级系统融合
11.16.4 构建混淆网络的词对齐方法

11.17 译文质量评估方法

11.17.1 概述
11.17.2 技术指标
11.17.3 相关评测
11.17.4 有关自动评测方法的评测

第12章语音翻译

12.1 语音翻译的基本原理和特点

12.1.1 语音翻译的基本原理
12.1.2 语音翻译的特点

12.2 语音翻译的研究现状

12.3 C-STAR、A-STAR和U-STAR

12.3.1 C-STAR概况
12.3.2 A-STAR 和U-STAR

12.4 系统与项目介绍

12.5 口语翻译方法

12.5.1 基于对话行为分析的口语翻译方法
12.5.2 基于句子类型的口语翻译方法

第13章文本分类与情感分类

13.1 文本分类概述

13.2 文本表示

13.3 文本特征选择方法

13.3.1 基于文档频率的特征提取法
13.3.2 信息增益法
13.3.3 x^2^ 统计量
13.3.4 互信息法

13.4 特征权重计算方法

13.5 分类器设计

13.5.1 朴素贝叶斯分类器
13.5.2 基于支持向量机的分类器
13.5.3 k-最近邻法
13.5.4 基于神经网络的分类器
13.5.5 线性最小平方拟合法
13.5.6 决策树分类器
13.5.7 模糊分类器
13.5.8 Rocchio分类器
13.5.9 基于投票的分类方法

13.6 文本分类性能评测

13.6.1 评测指标
13.6.2 相关评测

13.7 情感分类

第14章信息检索与问答系统

14.1信息检索概

14.1.1 背景概述
14.1.2 基本方法和模型
14.1.3 倒排索引
14.1.4 文档排序

14.2 隐含语义标引模型

14.2.1 隐含语义标引模型
14.2.2 概率隐含语义标引模型
14.2.3 弱指导的统计隐含语义标引模型

14.3 检索系统评测

14.3.1 检索系统评测指标
14.3.2 信息检索评测活动

14.4 问答系统

14.4.1 概述
14.4.2 系统构成
14.4.3 基本方法
14.4.4 QA系统评测

第15章自动文摘与信息抽取

15.1 自动文摘技术概要

15.2 多文档摘要

15.2.1 问题与方法
15.2.2 文摘评测

15.3 信息抽取

15.3.1 概述
15.3.2 传统的信息抽取技术
15.3.3 开放式信息抽取

15.4 情感信息抽取

15.5 情感分析技术评测

第16章口语信息处理与人机对话系统

16.1 汉语口语现象分析

16.1.1 概述
16.1.2 口语语言现象分析
16.1.3 冗余现象分析
16.1.4 重复现象分析

16.2 口语句子情感信息分析

16.2.1 情感词汇分类
16.2.2 口语句子情感信息分析

16.3 面向中间表示的口语解析方法

16.3.1 概述
16.3.2 中间表示格式
16.3.3 基于规则和HMM的统计解析方法
16.3.4 基于语义决策树的口语解析方法

16.4 基于MDP的对话行为识别

16.5 基于中间表示的口语生成方法

16.5.1 基本思路
16.5.2 微观规划器
16.5.3 表层生成器

16. 6人机对话系统

16.6.1 系统组成
16.6.2 相关研究

参考文献

自然语言处理及其相关领域的国际会议

名词术语索

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：jquery 复现框取消选中

下一篇：jquery easyui 如何做前后端分离开发

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

自然语言处理自己标注一个语料库

自然语言处理自己标注一个语料库

第1章 绪论

1.1 基本概念

1.2 自然语言处理研究的内容和面临的困难

1.3 自然语言处理的基本方法及其发展

1.4 自然语言处理的研究现状

1.5 本书的内容安排

第2章 预备知识

2.1 概率论基本概念

2.2 信息论基本概念

2.3 支持向量机

第3章 形式语言与自动机

3.1 基本概念

3.2 形式语言

3.3 自动机理论

3.4 自动机在自然语言处理中的应用

第4章 语料库与语言知识库

4.1 语料库技术

4.2 语言知识库

4.3 语言知识库与本体论

第5章 语言模型

5.1 n元语法

5.2 语言模型性能评价

5.3 数据平滑

5.4 其他平滑方法

5. 5 平滑方法的比较

5.6 语言模型自适应方法

第6章 概率图模型

6.1 概述

6.2 贝叶斯网络

6.3 马尔可夫模型

6.4 隐马尔可夫模型

6.5 层次化的隐马尔可夫模型

6.6 马尔可夫网络

6.7 最大熵模型

6.8 最大熵马尔可夫模型

6.9 条件随机场

第7章 自动分词、命名实体识别与词性标注

7.1 汉语自动分词中的基本问题

7.2 汉语分词方法

7.3 命名实体识别

7.4 维吾尔语人名识别方法研究

7.5 词性标注

7.6 词性标注的一致性检查与自动校对

7.7关于技术评测

第8章 句法分析

8.1 句法结构分析概述

8.2 基于PCFG的基本分析方法

8.3 词汇化的短语结构分析器

8.4 非词汇化句法分析器

8.5 其他相关研究

8.6 短语结构分析器性能评价

8.7 层次化汉语长句结构分析

8.8 浅层句法分析

8.9 依存语法理论简介

8.10 依存句法分析

8.11 依存分析器性能评价

8.12 短语结构与依存结构之间的关系

第9章 语义分析

9.1 词义消歧概述

9.2 有监督的词义消歧方法

9.3 基于词典的词义消歧方法

9.4 无监督的词义消歧方法

9.5 词义消歧系统评价

9.6 语义角色标注概述

9.7 语义角色标注基本方法

9.8 语义角色标注的领域适应性问题

9.9 双语联合语义角色标注方法

第10章 篇章分析

10.1 基本概念

10.2 基本理论

10.3 篇章衔接性研究

10.4 篇章连贯性研究

10.5 篇章标注语料库

10.6 关于汉语篇章分析

第11章 统计机器翻译

11.1 机器翻译概述

11.2 基于噪声信道模型的统计机器翻译原理

11.3 IBM的5个翻译模型

第1章绪论

第2章预备知识

第3章形式语言与自动机

第4章语料库与语言知识库

第5章语言模型

第6章概率图模型

第7章自动分词、命名实体识别与词性标注

第8章句法分析

第9章语义分析

第10章篇章分析

第11章统计机器翻译

第12章语音翻译

第13章文本分类与情感分类

第14章信息检索与问答系统

第15章自动文摘与信息抽取

第16章口语信息处理与人机对话系统