(1) Urllib是 Python提供的一个用于操作URL的模块,在 Python2X中,有 Urllib也有Urllib2库,在 Python3x中 urllib2合并到了 urllib中,我们爬取网页的时候,经常需要用到这个库。
(2)一般来说,URL标准中只会允许一部分 ASCII字符,比如数字、字母、部分符号等,而其他的一些字符,比如汉字等,是不符合URL标准的。所以如果我们在URL中使用不符合标准的字符就会出现问题,此时需要进行URL编码方可解决。比如在URL中输入中文或者“:”或者“&”等不符合标准的字符时,需要编码。
(3)当我们无法爬取一些网页时可能会出现403错误,因为这些网页为了防止别人恶意采集其信息进行了一些反爬虫的设置。
(4)由于 urlopen0不支持一些HTTP的高级功能,所以,我们如果要修改报头,可以使用 urllib, request. build opener(进行。
(5)我们还可以使用 urllib. request Request下的 add header实现浏览器模拟技术。
(6)程序在执行的过程中,难免会发生异常,发生异常不要紧,关键是要能合理地处理异常,在 Python爬虫中,经常要处理一些与URL相关的异常。此时,我们可以使用URL异常处理神器— -Urlerror类进行相应的处理。
(7)我们经常使用try… except语句进行异常处理,在try中执行主要代码,在 except中捕获异常信息,并进行相应的异常处理。