爬虫基本框架源码
import sys
from bs4 import BeautifulSoup #网页解析,获取数据
import re #正则表达式,进行文字匹配
import urllib.request,urllib.error #制定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite 数据库操作
def main():
baseurl = "https://movie.douban.com/top250"
#1.爬取网页
datalist = getData(baseurl)
savepath=r'.\\douban250.xls'
saveData()
#爬取网页
def getData(baseurl):
datalist=[]
# 2.逐一解析数据
return datalist
#保存数据
def saveData(savepath):
pass
if __name__ == '__main__':
print('ssss')