我又来水博客了,今天我做了关键词提取算法。

代码我会上传到我的github中去,这个算法需要stopword和corpus两个txt格式,导入的时候,会出现下面的错误

gbk' codec can't decode byte 0x80 in position 26: illegal multibyte sequence

只需要在里面的open函数里面加一句encoding=“utf-8”即可。

 

 

然后把源码一运转就行了,下面是结果。

关键词提取代码_关键词提取