1.在python中文本用链表来表示:['Monty','Pyton']。我们可以使用索引,分片和len()函数对链表进行操作。(文本在python中都是用链表表示)

2词“token”(标识符)是指文本中给定词的特定出现;词“type”类型则是指词作为一个特定序列字母的唯一形式。我们使用len(text)计数词的标识符计数词的标识符,使用len(set(text))计数词的类型。(len()统计的是文本的所有字符。len(set())去除了重复的)

3.我们使用sorted(set(t))获得文本t的词汇表。

4.我们使用[f(x) for x in text]对文本的每一项进行操作。

5.为了获得没有大小写区分和忽略标点符号的词汇表,我们可以使用set([w.lower() for w in text if w.isalpha() ])。(还有很多函数可以查API)

6.for和if控制语句,对文本中的每个词进行处理,如for with t:或者for word in text:或if  len(word)<5。后面必须带冒号,换行缩进4格。

7.频率分布是项目连同他们的频率计数的集合。

8.函数是指定了名字并且可以重用的代码块。函数通过def关键字定义,例def mult(x,y)。

注:第一章中babelize_shell()和text3.gnerate()现在都不可用了,直接跳过。