python导入第三方库pyd python导入第三方库原理

转载

小屁孩 2023-11-09 22:03:37

文章标签 python导入第三方库pyd python 第三方库 html 文章分类 Python 后端开发

python能够这么流行，一个重要的原因是第三方库非常的多，提供的功能非常的丰富，减少了开发时间，github等有非常多python的第三方库，很多第三库不仅提供了很多实用的功能，同时也是学习python的好材料。

这一章介绍两个常用的第三库，requests和bs4，这两个库在做爬虫是最经常会用到的，requests为抓取网络数据，bs4为对抓取的html结构进行解析。

第三方库的安装

python为我们提供了安装第三方库的工具，如easy_install，pip等，在windows下，存放在目录C:\Python27\Scripts，需要使用这些工具进行安装的时候，需要把这个目录路径放在系统路径下，否则会出现找不到命令，easy_install，pip的原理是通过参数去下载相应的库，并把它安装到相应的目录下，在windows，一边存放在C:\Python27\Lib\site-packages。

安装requests和bs4

pip install requests
pip install bs4

python导入第三方库pyd python导入第三方库原理_html

安装完以后，查看是否安装成功，只要把库加载进来看是否成功。

>>> import requests
>>> import bs4
>>>

如果出现：

ImportError: No module named requests

说明没有安装成功，看看安装过程中出现了什么样的问题，进行修复。

库的使用

在网络处理中requests和bs4是最重要的两个库，requests库是对python中网络标准模块的封装，主要是用来获取网页的数据，抓取完数据以后还要对数据进行处理，取出我们自己需要的属性和数据，bs4就是用来解析html的好工具，这两个库都非常的重要，里面的东西非常的多，以后会专门的进行介绍，这里主要是简单的介绍如何方便的使用它们。

利用requests抓取百度网站，并使用bs4解析网站的title。

#!/usr/bin/python
#coding=utf-8

"""
start python 项目
"""

__author__ = 'yyp'

import requests
from bs4 import BeautifulSoup

headers = {}
headers['Accept-Encoding'] = 'gzip, deflate'
headers['Accept-Language'] = 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'
headers['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'
s = requests.Session()

url = 'http://www.baidu.com/'
request = s.get(url, headers = headers,timeout=120, verify=False)

if request.status_code == 200:
    body = request.text

    soup = BeautifulSoup(body)
    print soup.title

为了更好的模拟浏览器访问网站，在程序进行访问网站时，加入了头信息，User-Agent，Accept，Accept-Encoding等头信息。获取到网站的数据以后，通过BeautifulSoup进行html数据的处理，这里我们只是简单的得出网站的title信息。