Beautiful Soup

​https://cuiqingcai.com/1319.html​

 

第1步、解析网页

有四种解析方式:

(1)‘html.parser’解析 速度适中,容错能力强

(2)’lxml’解析 速度快,容错能力强

(3)’xml’解析 速度快,唯一支持xml的解析器

(4)’html5lib’解析 速度慢点,最好的容错性

 

几种爬虫比较


  1. urllib+正则:无第三方依赖
  2. requests+BeautifulSoup:library
  3. scrapy:框架