周末了,大段长篇技术文不发了,知道没人愿意看,但是学习不能落下,毕竟我的心里只有学习




这里分享一个自然语言处理中对中文分词支持比较好的结巴分词库,属于NLP中的重量级分词库,我们通过下面有趣的解绕口令来学习这个库能的基本用法

本文如题所说,用python来解绕口令,先来五组绕口令,自己试验下,看大概怎么断句,有没有晕了


["今天下雨,我骑车差点摔倒,好在我一把把把把住了!",
"来到杨过曾经生活的地方,小龙女动情的说,我也想过过过儿过过的生活,",
"多亏跑了两步,差点没上上上海的车",
"用毒毒毒蛇会不会被毒毒死",
"校长说:校服上除了校徽别别别的,让你们别别别的别别别的你非得别别的!"]


下面看用python来解绕口令,用到jieba库和pandas库

jieba库用来切词,jieba.cut()方法

join方法将列表中逗号替换成空格,并转成字符串

pandas转成dataframe二维数据结构,直观看数据结构和数据处理分析


# 分词
res = [list(jieba.cut(i)) for i in a]
print(res)

[['今天', '下雨', ',', '我', '骑车', '差点', '摔倒', ',', '好', '在', '我', '一把', '把', '把', '把住', '了', '!'], 
['来到', '杨过', '曾经', '生活', '的', '地方', ',', '小龙女', '动情', '的', '说', ',', '我', '也', '想', '过', '过', '过儿', '过过', '的', '生活'],
['多亏', '跑', '了', '两步', ',', '差点', '没上', '上', '上海', '的', '车'], 
['用毒毒', '毒蛇', '会', '不会', '被', '毒', '毒死'], 
['校长', '说', ':', '校服', '上', '除了', '校徽', '别别', '别的', ',', '让', '你们', '别别', '别的', '别别', '别的', '你', '非得', '别', '别的', '!']]


为了整齐些,把列表类型转换成Dataframe二维数据类型,更直观


res = [" ".join(i) for i in res]
print(res)
df = pd.DataFrame(res)
print(df)

['今天 下雨 , 我 骑车 差点 摔倒 , 好 在 我 一把 把 把 把住 了 !', '来到 杨过 曾经 生活 的 地方 , 小龙女 动情 的 说 , 我 也 想 过 过 过儿 过过 的 生活 ,', '多亏 跑 了 两步 , 差点 没上 上 上海 的 车', '用毒毒 毒蛇 会 不会 被 毒 毒死', '校长 说 : 校服 上 除了 校徽 别别 别的 , 让 你们 别别 别的 别别 别的 你 非得 别 别的 !']
                                                       0
0  今天 下雨 , 我 骑车 差点 摔倒 , 好 在 我 一把 把 把 把住 了 !
1  来到 杨过 曾经 生活 的 地方 , 小龙女 动情 的 说 , 我 也 想 过 过 过儿 过过 的 生活 ,
2  多亏 跑 了 两步 , 差点 没上 上 上海 的 车
3  用毒毒 毒蛇 会 不会 被 毒 毒死
4  校长 说 : 校服 上 除了 校徽 别别 别的 , 让 你们 别别 别的 别别 别的 你 非得 别 别的 !


Python 执行sh脚本中输入回车_Python 执行sh脚本中输入回车


整体看下来,结果除了过过和用毒毒两个地方有误,其他都被完美解开,是不是很棒,有兴趣动手试试吧!