python获取网页源码

原创

mob649e8158ed1f 2023-07-22 05:10:36 ©著作权

文章标签 html Python 示例代码 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e8158ed1f的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python获取网页源码

在网络爬虫、数据分析以及网页测试等许多应用中，我们通常需要获取网页的源码。Python提供了多种方法来实现这个目标。本文将介绍如何使用Python获取网页源码，并提供一些示例代码进行演示。

使用urllib库

urllib是Python的标准库之一，提供了一组用于处理URL的模块。其中的urllib.request模块可以用来发送HTTP请求并获取网页源码。下面是一个简单的示例代码：

import urllib.request

url = "

response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

print(html)

在上述代码中，我们首先导入urllib.request模块。然后，指定要访问的URL，并使用urlopen函数发送HTTP请求。urlopen函数返回一个HTTPResponse对象，我们可以调用read方法来获取响应内容，再通过decode方法将字节流转换为字符串。最后，我们将获取到的网页源码打印出来。

使用requests库

requests是一个功能强大而受欢迎的第三方库，用于发送HTTP请求和处理响应。相比于urllib库，requests更加简洁易用。下面是一个使用requests库获取网页源码的示例代码：

import requests

url = "

response = requests.get(url)
html = response.text

print(html)

在上述代码中，我们首先通过import语句导入requests库。然后，使用get方法发送GET请求，并将响应内容保存在response变量中。我们可以通过text属性获取响应的文本内容。最后，我们将获取到的网页源码打印出来。

使用selenium库

urllib和requests库适用于大多数情况，但在一些特殊情况下，例如需要执行JavaScript代码的网页，我们需要使用特殊的工具。selenium是一个用于自动化浏览器操作的工具，可以模拟用户在浏览器中的交互。下面是一个使用selenium库获取网页源码的示例代码：

from selenium import webdriver

url = "

# 创建一个Chrome浏览器实例
driver = webdriver.Chrome()
# 访问指定URL
driver.get(url)

# 获取网页源码
html = driver.page_source

print(html)

# 关闭浏览器实例
driver.quit()

在上述代码中，我们首先通过from...import语句导入selenium库的webdriver模块。然后，创建一个Chrome浏览器实例，并使用get方法访问指定URL。通过page_source属性可以获取网页的源码。最后，我们将获取到的网页源码打印出来，并通过quit方法关闭浏览器实例。