【爬虫高阶】制作百度纯净版搜索引擎

原创

百木从森 2022-07-11 11:26:19 ©著作权

©著作权归作者所有：来自51CTO博客作者百木从森的原创作品，请联系作者获取转载授权，否则将追究法律责任

制作百度纯净版搜索引擎

1. 网页爬虫初探
2. 页面分析
3. 信息爬取

1. 网页爬虫初探

常用的一套模板

import requests
from bs4 import BeautifulSoup

headers = {'cookie':'BIDUPSID=82508FD9E8C7F366210EB75A638DF308; PSTM=1567074841',
            'User-Agent': 'Mozilla/5.0 '}
#注意使用自己的cookie和header

def get_html(url):
    html = requests.get(url,headers=headers)
    if html.status_code == 200:
        html.encoding = 'utf-8'
        print(html.text)
    else:
        print('ERROR',url)

if __name__ == '__main__':
    url = 'http://www.baidu.com/s?wd=python'
    get_html(url)

→ 输出的结果为：（可以返回正常的结果）

【爬虫高阶】制作百度纯净版搜索引擎_html

2. 页面分析

由于之后要创建ip代理池，这里搜索的关键词不妨以“代理ip”进行搜索，检查标签后可以发现前五个标签均为广告把标签，而且都是id=xxx开始的，而真正返回的信息是在以包含result的标签中，其中result-op是百度自家的信息

【爬虫高阶】制作百度纯净版搜索引擎_url_02

3. 信息爬取

代码如下，这里只进行了第一页搜索结果的爬取

import requests
from urllib import parse
from bs4 import BeautifulSoup

headers = {'cookie':'BIDUPSID=82508FD9E8C7F366210EB75A638DF308; PSTM=1567074841',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}
#输入自己的cookie和header

def crawl(url):
    html = requests.get(url,headers=headers)
    if html.status_code == 200:
        parse_html(html.text)
    else:
        print('error')

def parse_html(text):
    # print(text)
    soup = BeautifulSoup(text,'lxml')
    results = soup.find_all('div',class_='result c-container')
    result_baidus = soup.find_all('div',class_='result-op c-container xpath-log')
    # print(results)
    try:
        for result in results:
            title = result.find('h3').a.text
            href = result.find('h3').a['href']
            content = result.find('div',class_ = 'c-abstract').text
            print(title,href)
            print(content)

        for baidu in result_baidus: #百度的标签对应的结果需要单独提取
            title = baidu.find('h3').a.text
            href = baidu.find('h3').a['href']
            content = baidu .find('div',class_ = 'c-abstract').text
            print(title,href)
            print(content)
    except:
        pass
#加上防错机制

if __name__ == '__main__':
    #keyword = parse.quote(input('请输入搜索关键词：')) 这里可以保留一个接口，可以方便时直接调用
    keyword = parse.quote('网易')
    print(keyword)
    url = 'https://www.baidu.com/s?wd={}'.format(keyword)
    crawl(url)