from keras.preprocessing.text import text_to_word_sequence
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
text1 = "今天 北京 下 暴雨 了"
text2 = "我 今天 打车 回家"
texts = [text1, text2]
print(text_to_word_sequence(text1)) # 按空格分割语料
# ['今天', '北京', '下', '暴雨', '了']
tokenizer = Tokenizer(num_words=10)
tokenizer.fit_on_texts(texts)
print(tokenizer.document_count) # 处理文档的数量
# 2
print(tokenizer.word_counts) # 词频字典,按词频从大到小排序
# OrderedDict([('今天', 2), ('北京', 1), ('下', 1), ('暴雨', 1), ('了', 1), ('我', 1), ('打车', 1), ('回家', 1)])
print(tokenizer.word_docs) # 保存每个word出现的文档的数量
# {'了': 1, '暴雨': 1, '北京': 1, '下': 1, '今天': 2, '打车': 1, '回家': 1, '我': 1}
print(tokenizer.word_index) # 给每个词唯一id
# {'今天': 1, '北京': 2, '下': 3, '暴雨': 4, '了': 5, '我': 6, '打车': 7, '回家': 8}
print(tokenizer.index_docs) # 保存word的id出现的文档的数量
# {5: 1, 4: 1, 2: 1, 3: 1, 1: 2, 7: 1, 8: 1, 6: 1}
# 将序列填充到maxlen长度
print(pad_sequences([[1,2,3],[4,5,6]],maxlen=10,padding='pre')) # 在序列前填充
# [[0 0 0 0 0 0 0 1 2 3]
# [0 0 0 0 0 0 0 4 5 6]]
print(pad_sequences([[1,2,3],[4,5,6]],maxlen=10,padding='post')) # 在序列后填充
# [[1 2 3 0 0 0 0 0 0 0]
# [4 5 6 0 0 0 0 0 0 0]]
Keras实现文本预处理
原创wx6464351503832 ©著作权
文章标签 词频 文章分类 JavaScript 前端开发
-
Keras 文本预处理 text sequence
x
编码值 预处理 -
Python 文本预处理指南
文本预处理是指在进行自然语言处理(NLP)任务之前,对原始文本数据进行清
python 开发语言 数据 预处理 结构化 -
html5可以控制元素为块级元素的取值
html标签(也叫元素)大概可以统分为三大类,块元素、内联元素、内联块元素。 块元素 1,常用的块元素:ul、li、div、p、dl、dt、dd、h1~h6。 2,块元素支持所有的样式。 3,盒子独占据一行,即使设置了宽度。 &n
html5可以控制元素为块级元素的取值 块元素 内联元素 html