最近在参考w3school的文档学习python,就根据文档的请求模块进行扩展一下。
1、访问提供的网站,并提取script中的url地址。
这是w3school的请求模块案例:https://www.w3school.com.cn/python/python_module_requests.asp
现在要做的是把script中的url地址给提取出来
2、首先得需要两个模块,然后放列表进行遍历
from bs4 import BeautifulSoup
import requests
#获取地址跟时间
def entryDataList():
quest = requests.get('https://w3school.com.cn/python/demopage.htm')
html = quest.text
my_page = BeautifulSoup(html,"html.parser")
entryData_list=[] #放到列表里面进行遍历
for script in my_page.find_all('script'): #取出网页中所有的script块
entryData_list.append(script)
return entryData_list
if __name__ == '__main__':
print(entryDataList())
3、提取指定内容
from bs4 import BeautifulSoup
import requests
#获取地址跟时间
def entryDataList():
quest = requests.get('https://w3school.com.cn/python/demopage.htm')
html = quest.text
my_page = BeautifulSoup(html,"html.parser")
entryData_list=[] #放到列表里面进行遍历
for script in my_page.find_all('script'): #取出网页中所有的script块
entryData_list.append(script)
return entryData_list
def w3c():
entryData_list = entryDataList()
x = entryData_list[0].get('src') #[0]就是获取列表中的第一个,因为可以根据上图看出有两个script块,然后在get想要的src
return x
if __name__ == '__main__':
print(w3c())