一、语料的获取与处理

1、什么是语料库?
语料:即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。

语料库:存放的是在语言实际使用中真实出现过的语言材料,是以计算机为载体承载语言知识的基础资源。真实语料需要经过加工(分析、处理),才能成为有用的资源。

2、语料库的种类
异质的:语料有多种分类
同质的:语料同类
系统的:如聊天机器人
专用的:如保险推销聊天机器人

3、语料的获取途径
1、开放性语料数据集:
(1)中科院自动化所的中英文新闻语料库
(2)搜狗的中文新闻语料库
(3)人工生成的机器阅读理解数据集
(4)一个开放问题与回答的挑战数据集

2、爬虫技术

3、自有平台

语料的处理
步骤一:获取语料
步骤二:格式化文本
步骤三:特征工程(在数据集中提取相关的特征用于训练和验证)

二、NLP中的语言模型
语言模型概念
是NLP中的一大利器,是NLP领域一个基本却又重要的任务。
主要功能就是计算一个词语序列构成一个句子的概率,这可以用来判断一句话出现的概率高不高,符不符合表达习惯,是否通顺正确。
eg:我是NLP开发工程师、开发工程师我是NLP

语言模型分类
Unigram models(一元文法统计模型)
N-gram 语言模型(N元模型)

jquery机器人对话 机器人对话文本_词向量


jquery机器人对话 机器人对话文本_jquery机器人对话_02


当n>3时基本就无法处理了,参数空间太大。另外它不能表示词与词之间的关联性。

三、词向量与word2vec
词向量:又称为词嵌入,是NLP中的一组语言建模和特征学习的统称,其中来自词汇表的单词或短语被映射到实数的向量。

word2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练已重新构建语言学之词文本。

jquery机器人对话 机器人对话文本_词向量_03


jquery机器人对话 机器人对话文本_语言模型_04

四、文本处理方法
1、数据清洗:去掉一些无意义的标签、url、符号等
2、分词、大小写转换、添加句首句尾、词性标注
3、统计词频、抽取文本特征、特征选择、计算特征权重、归一化
4、划分训练集、测试集