过往的词频统计都是针对整个文档进行的,而如果研究中需要知道单条评论或某个研究单元内某些词的词频,那么就需要进行额外的处理。原理非常的简单,就是遍历筛选,具体做法为去除停用词的逆运算。
Step1:分词
最基本的处理的就不做多余的赘述,直接上码:
def seg_word(data):
seg_result=[]
stop_list = open('哈工大停用词表.txt','r',encoding='utf-8').read()
for sentence in data:
c_words=jieba.cut(sentence)
seg_result.append([word for word in c_words if word not in stop_list and len(word) >1])#不要忘记了加[],输出要为list格式
return seg_result
Step2:遍历筛选核心关键词
def flitter(seg_result):
key_words=open('key_words.txt','r',encoding='utf-8').read()
result=[]
for i in seg_result:
for j in i:
if j in key_words:
result.append(j)
return result
这里需要注意的有两点:
(1)第一步中的分词结果是list of list 的格式,我们需要对内层即第二层的内容进行统计,因此需要用第二层的内容对key_words进行遍历。即两个for循环。
(2)key_words的读取格式要为string,所以是.read()而不是.readlines,否则不会起作用,停用词列表类同。
Step3:词频统计
实现方法(1)
def count_words(result):
count={}
for i in result:
if len(i)>=2:#排除单个词
count[i]=count.get(i,0)+1#类似一个循环判断,get的第二个空格是默认值,如果不在list里面就是返回NONE或者数字0
return count
实现方法(2)
count={}
for i in seg_result:
if i not in count:
count[i]=0#键和值一起存进了count,只是没有的话值为0
else:
count[i]+=1
实现方法(3)
count=data.value_counts()#默认降序
count=data.value_counts(ascending=True)#升序排列
此外,还可以进行排序
items = list(count.items())#list里面为元组
items.sort(key=lambda x:x[1],reverse=True)#key指要执行什么,冒号后面是排序的依据,对应索引中的索引应该是1,(键为0值为1)
Step4:数据测试
在定义好了函数后,就可以进行主函数的书写和函数的调用啦
data = open('test.txt','r',encoding='utf-8').readlines()
seg_result=seg_word(data)
result=flitter(seg_result)
count=count_words(result)
补充:这样的筛选结果是以词为单元的,每一个符合筛选要求的词语占一行。但有时候用词频做细粒度分析的时候需要知道原本每一行所包含关键词的情况。那么这时候就需要换一种结构:
主要的区别在于函数仅仅考虑单条评论的处理方式,至于自己的数据全部在主函数中进行使用。
import jieba
import pandas as pd
#定义函数
#结巴分词
def seg_word(sentence):
seg_list = jieba.cut(sentence)
seg_words=[]
for i in seg_list:
seg_words.append(i)
stoplist=open(r'C:\Users\64884\Desktop\相似度训练\哈工大停用词表.txt','r',encoding='utf-8').read()
seg_result=[]
for word in seg_words:
if word not in stoplist:
seg_result.append(word)
return seg_result
#主题词过滤
def flitter(seg_result):
key_words=open(r'C:\Users\64884\Desktop\相似度训练\key_words.txt','r',encoding='utf-8').read()
result=[]
for i in seg_result:
if i in key_words:
result.append(i)
return result
#输入自己的数据
data = open(r'C:\Users\64884\Desktop\相似度训练\物流评论.txt','r',encoding='utf-8').readlines()
seg_result=[]
for i in data:
seg_result.append(seg_word(i))
result=[]
for i in seg_result:
result.append(flitter(i))