ML之NB:基于news新闻文本数据集利用朴素贝叶斯算法实现文本分类预测
目录
基于news新闻文本数据集利用朴素贝叶斯算法实现文本分类预测
基于news新闻文本数据集利用朴素贝叶斯算法实现文本分类预测
设计思路
更新……
输出结果
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1293 entries, 0 to 1292
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Unnamed: 0 1293 non-null int64
1 content 1292 non-null object
2 id 1293 non-null int64
3 tags 1293 non-null object
4 time 1293 non-null object
5 title 1293 non-null object
dtypes: int64(2), object(4)
memory usage: 60.7+ KB
None
Unnamed: 0 content \
0 0 牵动人心的雄安新区规划细节内容和出台时间表敲定。日前,北京商报记者从业内获悉,京津冀协同发...
1 1 去年以来,多个城市先后发布了多项楼市调控政策。在限购、限贷甚至限售的政策“组合拳”下,房地产...
2 2 在今年中国国际自行车展上,上海凤凰自行车总裁王朝阳表示,共享单车的到来把我们打懵了,影响更是...
3 3 25家上市银行迎来了一年一度的“分红季”,21世纪经济报道记者根据公开信息梳理发现,25家银...
4 4 说起卷饼,大家其实并不陌生,这个来自中原的传统美食,发展至今也衍生出各种各样的种类,卷边的制...
id tags \
0 6428905748545732865 ['财经', '白洋淀', '城市规划', '徐匡迪', '太行山']
1 6428954136200855810 ['财经', '碧桂园', '万科集团', '投资', '广州恒大']
2 6420576443738784002 ['财经', '自行车', '凤凰', '王朝阳', '汽车展览']
3 6429007290541031681 ['财经', '银行', '工商银行', '兴业银行', '交通银行']
4 6397481672254619905 ['财经', '小吃', '装修', '市场营销', '手工艺']
time title
0 2017-06-07 22:52:55 雄安新区规划“骨架”敲定,方案有望9月底出炉
1 2017-06-08 08:01:13 “红五月”不红 房企资金链压力攀升
2 2017-05-16 12:03:00 凤凰自行车总裁:共享单车把我们打懵了
3 2017-06-08 07:00:00 25家银行分红季派出3536亿“大红包”
4 2017-03-15 07:03:22 五万以下的小本餐饮项目,卷饼赚钱最稳
chinese_pattern re.compile('[\\u4e00-\\u9fff]+')
Building prefix dict from F:\File_Jupyter\实用代码\naive_bayes(简单贝叶斯)\jieba_dict\dict.txt.big ...
Loading model from cache
Prefix dict has been built succesfully.
<class 'gensim.corpora.dictionary.Dictionary'> Dictionary(46351 unique tokens: ['一个', '一个个', '一举一动', '一些', '一体']...)
<class 'method'> <bound method Dictionary.doc2bow of <gensim.corpora.dictionary.Dictionary object at 0x00000228613844E0>>
Unnamed: 0 content \
0 0 牵动人心的雄安新区规划细节内容和出台时间表敲定。日前,北京商报记者从业内获悉,京津冀协同发...
1 1 去年以来,多个城市先后发布了多项楼市调控政策。在限购、限贷甚至限售的政策“组合拳”下,房地产...
2 2 在今年中国国际自行车展上,上海凤凰自行车总裁王朝阳表示,共享单车的到来把我们打懵了,影响更是...
id tags \
0 6428905748545732865 ['财经', '白洋淀', '城市规划', '徐匡迪', '太行山']
1 6428954136200855810 ['财经', '碧桂园', '万科集团', '投资', '广州恒大']
2 6420576443738784002 ['财经', '自行车', '凤凰', '王朝阳', '汽车展览']
time title \
0 2017-06-07 22:52:55 雄安新区规划“骨架”敲定,方案有望9月底出炉
1 2017-06-08 08:01:13 “红五月”不红 房企资金链压力攀升
2 2017-05-16 12:03:00 凤凰自行车总裁:共享单车把我们打懵了
doc_words \
0 [牵动人心, 雄安, 新区, 规划, 细节, 内容, 出台, 时间表, 敲定, 日前, 北京...
1 [去年, 以来, 多个, 城市, 先后, 发布, 多项, 楼市, 调控, 政策, 限购, 限...
2 [今年, 中国, 国际, 自行车, 展上, 上海, 凤凰, 自行车, 总裁, 王, 朝阳, ...
corpus \
0 [(0, 6), (1, 1), (2, 1), (3, 3), (4, 2), (5, 2...
1 [(0, 1), (3, 3), (13, 1), (17, 1), (41, 1), (5...
2 [(15, 1), (53, 1), (167, 1), (262, 1), (396, 1...
tfidf
0 [(0, 0.005554342859788116), (1, 0.007470250835...
1 [(0, 0.002081356679198299), (3, 0.012288034179...
2 [(15, 0.057457146244872616), (53, 0.0543395377...
sims (1293, 1293)
Unnamed: 0 content \
0 0 牵动人心的雄安新区规划细节内容和出台时间表敲定。日前,北京商报记者从业内获悉,京津冀协同发...
1 1 去年以来,多个城市先后发布了多项楼市调控政策。在限购、限贷甚至限售的政策“组合拳”下,房地产...
2 2 在今年中国国际自行车展上,上海凤凰自行车总裁王朝阳表示,共享单车的到来把我们打懵了,影响更是...
id tags \
0 6428905748545732865 ['财经', '白洋淀', '城市规划', '徐匡迪', '太行山']
1 6428954136200855810 ['财经', '碧桂园', '万科集团', '投资', '广州恒大']
2 6420576443738784002 ['财经', '自行车', '凤凰', '王朝阳', '汽车展览']
time title \
0 2017-06-07 22:52:55 雄安新区规划“骨架”敲定,方案有望9月底出炉
1 2017-06-08 08:01:13 “红五月”不红 房企资金链压力攀升
2 2017-05-16 12:03:00 凤凰自行车总裁:共享单车把我们打懵了
doc_words \
0 [牵动人心, 雄安, 新区, 规划, 细节, 内容, 出台, 时间表, 敲定, 日前, 北京...
1 [去年, 以来, 多个, 城市, 先后, 发布, 多项, 楼市, 调控, 政策, 限购, 限...
2 [今年, 中国, 国际, 自行车, 展上, 上海, 凤凰, 自行车, 总裁, 王, 朝阳, ...
corpus \
0 [(0, 6), (1, 1), (2, 1), (3, 3), (4, 2), (5, 2...
1 [(0, 1), (3, 3), (13, 1), (17, 1), (41, 1), (5...
2 [(15, 1), (53, 1), (167, 1), (262, 1), (396, 1...
tfidf visual01 visual02 \
0 [(0, 0.005554342859788116), (1, 0.007470250835... -51.261967 11.873204
1 [(0, 0.002081356679198299), (3, 0.012288034179... -31.842293 16.635918
2 [(15, 0.057457146244872616), (53, 0.0543395377... -16.561825 48.171242
keyword_index
0 2
1 2
2 2
核心代码
data_frame_train=train_data_frame.corpus.apply(word_feature)
data_frame_test = test_data_frame.corpus.apply(word_feature)
print (type(data_frame_train.values))
from sklearn.naive_bayes import MultinomialNB
mnb=MultinomialNB()
pre_mnb=gnb.fit(list(data_frame_train.values),train_data_frame.keyword_index).predict(list(data_frame_test.values))
from sklearn.naive_bayes import BernoulliNB
bnb=BernoulliNB()
pre_bnb=bnb.fit(list(data_frame_train.values),train_data_frame.keyword_index).predict(list(data_frame_test.values))
from sklearn.lda import LDA
lda=LDA()
pre_lda=lda.fit(list(data_frame_train.values),train_data_frame.keyword_index).predict(list(data_frame_test.values))