jquery机器人对话机器人对话文本

转载

轩辕 2024-06-24 15:38:46

一、语料的获取与处理

1、什么是语料库？
语料：即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。

语料库：存放的是在语言实际使用中真实出现过的语言材料，是以计算机为载体承载语言知识的基础资源。真实语料需要经过加工（分析、处理），才能成为有用的资源。

2、语料库的种类
异质的：语料有多种分类
同质的：语料同类
系统的：如聊天机器人
专用的：如保险推销聊天机器人

3、语料的获取途径
1、开放性语料数据集：
（1）中科院自动化所的中英文新闻语料库
（2）搜狗的中文新闻语料库
（3）人工生成的机器阅读理解数据集
（4）一个开放问题与回答的挑战数据集

2、爬虫技术

3、自有平台

语料的处理
步骤一：获取语料
步骤二：格式化文本
步骤三：特征工程（在数据集中提取相关的特征用于训练和验证）

二、NLP中的语言模型
语言模型概念
是NLP中的一大利器，是NLP领域一个基本却又重要的任务。
主要功能就是计算一个词语序列构成一个句子的概率，这可以用来判断一句话出现的概率高不高，符不符合表达习惯，是否通顺正确。
eg：我是NLP开发工程师、开发工程师我是NLP

语言模型分类
Unigram models（一元文法统计模型）
N-gram 语言模型（N元模型）

jquery机器人对话机器人对话文本_词向量

jquery机器人对话机器人对话文本_jquery机器人对话_02

当n>3时基本就无法处理了，参数空间太大。另外它不能表示词与词之间的关联性。

三、词向量与word2vec
词向量：又称为词嵌入，是NLP中的一组语言建模和特征学习的统称，其中来自词汇表的单词或短语被映射到实数的向量。

word2vec，是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练已重新构建语言学之词文本。

jquery机器人对话机器人对话文本_词向量_03

jquery机器人对话机器人对话文本_语言模型_04

四、文本处理方法
1、数据清洗：去掉一些无意义的标签、url、符号等
2、分词、大小写转换、添加句首句尾、词性标注
3、统计词频、抽取文本特征、特征选择、计算特征权重、归一化
4、划分训练集、测试集

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

jquery机器人对话 机器人对话文本