ML之NB:基于news新闻文本数据集利用朴素贝叶斯算法实现文本分类预测

 

 

 

目录

基于news新闻文本数据集利用朴素贝叶斯算法实现文本分类预测

设计思路

输出结果

核心代码


 

 

 

 

基于news新闻文本数据集利用朴素贝叶斯算法实现文本分类预测

设计思路

更新……

 

 

输出结果

ML之NB:基于news新闻文本数据集利用朴素贝叶斯算法实现文本分类预测daiding_人工智能

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1293 entries, 0 to 1292
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  1293 non-null   int64 
 1   content     1292 non-null   object
 2   id          1293 non-null   int64 
 3   tags        1293 non-null   object
 4   time        1293 non-null   object
 5   title       1293 non-null   object
dtypes: int64(2), object(4)
memory usage: 60.7+ KB
None
   Unnamed: 0                                            content  \
0           0   牵动人心的雄安新区规划细节内容和出台时间表敲定。日前,北京商报记者从业内获悉,京津冀协同发...   
1           1  去年以来,多个城市先后发布了多项楼市调控政策。在限购、限贷甚至限售的政策“组合拳”下,房地产...   
2           2  在今年中国国际自行车展上,上海凤凰自行车总裁王朝阳表示,共享单车的到来把我们打懵了,影响更是...   
3           3  25家上市银行迎来了一年一度的“分红季”,21世纪经济报道记者根据公开信息梳理发现,25家银...   
4           4  说起卷饼,大家其实并不陌生,这个来自中原的传统美食,发展至今也衍生出各种各样的种类,卷边的制...   

                    id                                  tags  \
0  6428905748545732865   ['财经', '白洋淀', '城市规划', '徐匡迪', '太行山']   
1  6428954136200855810   ['财经', '碧桂园', '万科集团', '投资', '广州恒大']   
2  6420576443738784002    ['财经', '自行车', '凤凰', '王朝阳', '汽车展览']   
3  6429007290541031681  ['财经', '银行', '工商银行', '兴业银行', '交通银行']   
4  6397481672254619905     ['财经', '小吃', '装修', '市场营销', '手工艺']   

                  time                   title  
0  2017-06-07 22:52:55  雄安新区规划“骨架”敲定,方案有望9月底出炉  
1  2017-06-08 08:01:13       “红五月”不红 房企资金链压力攀升  
2  2017-05-16 12:03:00      凤凰自行车总裁:共享单车把我们打懵了  
3  2017-06-08 07:00:00    25家银行分红季派出3536亿“大红包”  
4  2017-03-15 07:03:22      五万以下的小本餐饮项目,卷饼赚钱最稳  
chinese_pattern re.compile('[\\u4e00-\\u9fff]+')
Building prefix dict from F:\File_Jupyter\实用代码\naive_bayes(简单贝叶斯)\jieba_dict\dict.txt.big ...
Loading model from cache 
Prefix dict has been built succesfully.
<class 'gensim.corpora.dictionary.Dictionary'> Dictionary(46351 unique tokens: ['一个', '一个个', '一举一动', '一些', '一体']...)
<class 'method'> <bound method Dictionary.doc2bow of <gensim.corpora.dictionary.Dictionary object at 0x00000228613844E0>>
   Unnamed: 0                                            content  \
0           0   牵动人心的雄安新区规划细节内容和出台时间表敲定。日前,北京商报记者从业内获悉,京津冀协同发...   
1           1  去年以来,多个城市先后发布了多项楼市调控政策。在限购、限贷甚至限售的政策“组合拳”下,房地产...   
2           2  在今年中国国际自行车展上,上海凤凰自行车总裁王朝阳表示,共享单车的到来把我们打懵了,影响更是...   

                    id                                 tags  \
0  6428905748545732865  ['财经', '白洋淀', '城市规划', '徐匡迪', '太行山']   
1  6428954136200855810  ['财经', '碧桂园', '万科集团', '投资', '广州恒大']   
2  6420576443738784002   ['财经', '自行车', '凤凰', '王朝阳', '汽车展览']   

                  time                   title  \
0  2017-06-07 22:52:55  雄安新区规划“骨架”敲定,方案有望9月底出炉   
1  2017-06-08 08:01:13       “红五月”不红 房企资金链压力攀升   
2  2017-05-16 12:03:00      凤凰自行车总裁:共享单车把我们打懵了   

                                           doc_words  \
0  [牵动人心, 雄安, 新区, 规划, 细节, 内容, 出台, 时间表, 敲定, 日前, 北京...   
1  [去年, 以来, 多个, 城市, 先后, 发布, 多项, 楼市, 调控, 政策, 限购, 限...   
2  [今年, 中国, 国际, 自行车, 展上, 上海, 凤凰, 自行车, 总裁, 王, 朝阳, ...   

                                              corpus  \
0  [(0, 6), (1, 1), (2, 1), (3, 3), (4, 2), (5, 2...   
1  [(0, 1), (3, 3), (13, 1), (17, 1), (41, 1), (5...   
2  [(15, 1), (53, 1), (167, 1), (262, 1), (396, 1...   

                                               tfidf  
0  [(0, 0.005554342859788116), (1, 0.007470250835...  
1  [(0, 0.002081356679198299), (3, 0.012288034179...  
2  [(15, 0.057457146244872616), (53, 0.0543395377...  
sims (1293, 1293)
   Unnamed: 0                                            content  \
0           0   牵动人心的雄安新区规划细节内容和出台时间表敲定。日前,北京商报记者从业内获悉,京津冀协同发...   
1           1  去年以来,多个城市先后发布了多项楼市调控政策。在限购、限贷甚至限售的政策“组合拳”下,房地产...   
2           2  在今年中国国际自行车展上,上海凤凰自行车总裁王朝阳表示,共享单车的到来把我们打懵了,影响更是...   

                    id                                 tags  \
0  6428905748545732865  ['财经', '白洋淀', '城市规划', '徐匡迪', '太行山']   
1  6428954136200855810  ['财经', '碧桂园', '万科集团', '投资', '广州恒大']   
2  6420576443738784002   ['财经', '自行车', '凤凰', '王朝阳', '汽车展览']   

                  time                   title  \
0  2017-06-07 22:52:55  雄安新区规划“骨架”敲定,方案有望9月底出炉   
1  2017-06-08 08:01:13       “红五月”不红 房企资金链压力攀升   
2  2017-05-16 12:03:00      凤凰自行车总裁:共享单车把我们打懵了   

                                           doc_words  \
0  [牵动人心, 雄安, 新区, 规划, 细节, 内容, 出台, 时间表, 敲定, 日前, 北京...   
1  [去年, 以来, 多个, 城市, 先后, 发布, 多项, 楼市, 调控, 政策, 限购, 限...   
2  [今年, 中国, 国际, 自行车, 展上, 上海, 凤凰, 自行车, 总裁, 王, 朝阳, ...   

                                              corpus  \
0  [(0, 6), (1, 1), (2, 1), (3, 3), (4, 2), (5, 2...   
1  [(0, 1), (3, 3), (13, 1), (17, 1), (41, 1), (5...   
2  [(15, 1), (53, 1), (167, 1), (262, 1), (396, 1...   

                                               tfidf   visual01   visual02  \
0  [(0, 0.005554342859788116), (1, 0.007470250835... -51.261967  11.873204   
1  [(0, 0.002081356679198299), (3, 0.012288034179... -31.842293  16.635918   
2  [(15, 0.057457146244872616), (53, 0.0543395377... -16.561825  48.171242   

   keyword_index  
0              2  
1              2  
2              2  

 

 

 

核心代码

data_frame_train=train_data_frame.corpus.apply(word_feature)
data_frame_test = test_data_frame.corpus.apply(word_feature)
print (type(data_frame_train.values))


from sklearn.naive_bayes import MultinomialNB
mnb=MultinomialNB()
pre_mnb=gnb.fit(list(data_frame_train.values),train_data_frame.keyword_index).predict(list(data_frame_test.values))

from sklearn.naive_bayes import BernoulliNB
bnb=BernoulliNB()
pre_bnb=bnb.fit(list(data_frame_train.values),train_data_frame.keyword_index).predict(list(data_frame_test.values))

from sklearn.lda import LDA
lda=LDA()
pre_lda=lda.fit(list(data_frame_train.values),train_data_frame.keyword_index).predict(list(data_frame_test.values))