最近在参考w3school的文档学习python,就根据文档的请求模块进行扩展一下。

1、访问提供的网站,并提取script中的url地址。

这是w3school的请求模块案例:https://www.w3school.com.cn/python/python_module_requests.asp

现在要做的是把script中的url地址给提取出来

python 查找 网页内容 python获取网页_html


2、首先得需要两个模块,然后放列表进行遍历

from bs4 import BeautifulSoup
import requests

#获取地址跟时间
def entryDataList():
    quest = requests.get('https://w3school.com.cn/python/demopage.htm')
    html = quest.text
    my_page = BeautifulSoup(html,"html.parser")
    entryData_list=[]   #放到列表里面进行遍历
    for script  in my_page.find_all('script'): #取出网页中所有的script块
        entryData_list.append(script)
    return entryData_list

if __name__ == '__main__':
    print(entryDataList())

python 查找 网页内容 python获取网页_3c_02


3、提取指定内容

from bs4 import BeautifulSoup
import requests

#获取地址跟时间
def entryDataList():
    quest = requests.get('https://w3school.com.cn/python/demopage.htm')
    html = quest.text
    my_page = BeautifulSoup(html,"html.parser")
    entryData_list=[]   #放到列表里面进行遍历
    for script  in my_page.find_all('script'): #取出网页中所有的script块
        entryData_list.append(script)
    return entryData_list

def w3c():
    entryData_list = entryDataList()
    x = entryData_list[0].get('src')  #[0]就是获取列表中的第一个,因为可以根据上图看出有两个script块,然后在get想要的src
    return x

if __name__ == '__main__':
    print(w3c())

python 查找 网页内容 python获取网页_python 查找 网页内容_03