学习爬虫笔记
①爬虫2使用中文需要加入: # -- coding: UTF-8 -- 或者 # coding=utf-8爬虫3不需要。
②爬虫的保留字(小写):
and exec not
assert finally or
break for pass
class from print
continue global raise
def if return
del import try
elif in while
else is with
except lambda yield
③python 最具特色的就是用缩进来写模块。缩进的空白数量是可变的,但是所有代码块语句必须包含相同的缩进空白数量,这个必须严格执行
。IndentationError: unindent does not match any outer indentation level错误表明,你使用的缩进方式不一致,有的是 tab 键缩进,有
的是空格缩进,改为一致即可。
如果是 IndentationError: unexpected indent 错误, 则 python 编译器是在告诉你"Hi,老兄,你的文件里格式不对了,可能是tab和空格没
对齐的问题",所有 python 对格式要求非常严格。
因此,在 Python 的代码块中必须使用相同数目的行首缩进空格数。
建议你在每个缩进层次使用 单个制表符 或 两个空格 或 四个空格 , 切记不能混用
④多行语句
Python语句中一般以新行作为语句的结束符。
但是我们可以使用斜杠( \)将一行的语句分为多行显示,
total = item_one +
item_two +
item_three
语句中包含 [], {} 或 () 括号就不需要使用多行连接符。如下实例:
days = [‘Monday’, ‘Tuesday’, ‘Wednesday’,
‘Thursday’, ‘Friday’]
⑤Python 引号
Python 可以使用引号( ’ )、双引号( " )、三引号( ‘’’ 或 “”" ) 来表示字符串,引号的开始与结束必须是相同类型的。
其中三引号可以由多行组成,编写多行文本的快捷语法,常用于文档字符串,在文件的特定地点,被当做注释。
word = ‘word’
sentence = “这是一个句子。”
paragraph = “”“这是一个段落。
包含了多个语句”""
⑥Python注释:
python中单行注释采用 # 开头。注释可以在语句或表达式行末;python 中多行注释使用三个单引号(’’’)或三个双引号(""")。
⑦Python空行:
函数之间或类的方法之间用空行分隔,表示一段新的代码的开始。类和函数入口之间也用一行空行分隔,以突出函数入口的开始。
空行与代码缩进不同,空行并不是Python语法的一部分。书写时不插入空行,Python解释器运行也不会出错。但是空行的作用在于分隔两段不同
功能或含义的代码,便于日后代码的维护或重构。
记住:空行也是程序代码的一部分。
⑧等待用户输入
Python2使用raw_input,Python3直接用input
⑨同一行显示多条语句
Python可以在同一行中使用多条语句,语句之间使用分号(;)分割
⑩print 输出
print 默认输出是换行的,如果要实现不换行需要在变量末尾加上逗号 (,);Python3要求print后加上()。
11:多个语句构成代码组
缩进相同的一组语句构成一个代码块,我们称之代码组。
像if、while、def和class这样的复合语句,首行以关键字开始,以冒号( : )结束,该行之后的一行或多行代码构成代码组。
我们将首行及后面的代码组称为一个子句(clause)。