文本挖掘银行python 文本挖掘应用案例

转载

mob64ca140d96d9 2023-12-05 15:24:34

文章标签 文本挖掘银行python 数据挖掘文本挖掘特征提取权值 文章分类 Python 后端开发

文本挖掘的定义

文本挖掘即文本数据库中的知识发现，是从大量文本的集合或语料库中发现隐含的、有潜在使用价值的模式和知识。

主题挖掘，通过分类或者聚类的方法找出主题相同的文本；

情感分析，通过处理能表达情感倾向的词语特征向量，得到每个文本的情感倾向及程度。

文本挖掘的流程

文本挖掘银行python 文本挖掘应用案例_数据挖掘

文本语料的采集

文本采集主要是利用搜索引擎或者网络爬虫技术,将所需的网页信息抓取过来。

火车采集器采集电商网站的评论信息。

文本预处理

文本挖掘银行python 文本挖掘应用案例_特征提取_02

分词

中文分词(Chinese Word Segmentation),也可称为中文切词,指的是通过某种特定的规则,将中文文本切分成单独的具有意义的词条基于字符串、基于词义理解

停用词过滤

文本的内容信息主要通过名词、动词、形容词等实词来体现，而连词、冠词、介词和助词等虚词以及在各种文本里都经常出现的部分高频词对区分类别毫无贡献, 这些不能反映文本类别的词语

就被称为停用词。

特征提取，权值转换，构建矩阵文本

如果将分词之后的所存词都作为特征项,会引起维数灾难,而且会影响后续研究的准确性。因为分词后得到的是一个极其稀疏的矩阵,所以需要通过特征提取将信息量小的,不重要的词汇从特征空间中去掉,提取出有代表性的,重要的词汇,以降低矩阵的维度。

文本的权值转换及向量表示

为了构建文本向量，需要为文本（特征提取后）中的词语设定权值

常见方法：布尔型处理、文档频率、信息增益、卡方检验、TF-IDF等

TF-IDF

见《基于Web文本挖掘的企业口碑情感分类模型研究》P46

文本挖掘及质量评估基于词典、KNN、神经网络、SVM等等

评估方法：查准率、查全率

应用

垃圾邮件的判定(spam or not spam)

– 类别 {spam, not-spam}

新闻出版按照栏目分类

– 类别 {政治,体育,军事,…}

词性标注

– 类别 {名词,动词,形容词,…}

词义排歧

– 类别 {词义1,词义2,…}

计算机论文的领域

– 类别ACM system 

 

                  H: information systems 

 

                  H.3: information retrieval and storage

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：服务器内存泄漏导出java内存服务器内存溢出怎么办

下一篇：openstack 伸缩容错 nova 消息队列 openstack消息队列作用

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

文本挖掘银行python 文本挖掘应用案例

文本挖掘银行python 文本挖掘应用案例

51CTO博客