这是一篇关于iaaf国际运动员跳远数据表格的爬虫经验 。(今天我们只取progression项的long=jump的数据) 我个人是分了四个脚本进行运行: 首先第一个脚本。1:我们需要导入三个python的第三方库,分别是requests( 用于简洁且简单的处理HTTP请求的第三方库),beautifulsoup4( 从HTML和XML文件中解析出数据的第三方库),import json(JSON 是轻量级的文本数据交换格式。是用来存储和交换文本信息的语法。) 这里我加了一个:from future import print_function(表示不同python版本运行时不会出现问题) 2:这里我们还需要取一个‘User_Agent’:方法:打开主界面检查元素,在控制台最下方输入“alert(navigator.user.Agent)”这时会弹出一个小窗口,复制即可。(作用:用于洋装成浏览器而不是爬虫) ('User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15', })

3:url = 'https://www.iaaf.org/records/toplists/jumps/long-jump/outdoor/men/senior/2018?regionType=world&windReading=regular&page={}&bestResultsOnly=true'

这时我们可以利用requests,BeautiflSoup来进行处理。 db = pymongo.MongoClient().iaaf(调用数据库) 4:res = requests.get(url.format(i), headers=headers)(请求得到数据并勤变量名为res) 5:record_table = soup.find_all('table', class_='records-table')(定位目标) for i in tr_l: # 针对每一个tr 也就是一行 td_l = i.find_all('td') # td的列表 第三项是 带href (把td_l里面的每一项赋值 ,组成json数据 {} 插入到mongo(在从mongo里去到herf访问生涯数据并存回这个表) 6: j_data = {}(将数据存到字典里如下:) try: j_data['Rank'] = td_l[0].get_text().strip() j_data['Mark'] = td_l[1].get_text().strip() j_data['WIND'] = td_l[2].get_text().strip() j_data['Competitior'] = td_l[3].get_text().strip() j_data['DOB'] = td_l[4].get_text().strip() j_data['Nat'] = td_l[5].get_text().strip() j_data['Pos'] = td_l[6].get_text().strip() j_data['Venue'] = td_l[8].get_text().strip() j_data['Date'] = td_l[9].get_text().strip()

            j_data['href'] = td_l[3].find('a')['href']
        except:
            pass
        db.athletes.×××ert_one(j_data)
					
  if __name__ == '__main__':
       spider_iaaf()(数据库)

下面是第二个脚本: from future import print_function import requests from bs4 import BeautifulSoup(同样引用) 1:headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15'} 2: res = requests.get(url, headers=headers) html = res.text 3: soup = bs(html,'html.parser')(处理文件) div = soup.find('div', id='progression')(定位到准确文件) 4:此时如果我们想准确的定位到跳远成绩我➕了一句if语句(if "Long Jump" in text and "View Graph" in text: tbody = i.parent.parent.table.tbody)表明再此界面有Long Jump和View Graph的就是我们所需要的数据并且返回到上两级取到tbody标签。 tbody_l.append(tbody) #并且追加到tbody。 # 拿到两个元素的tbody 一个为室外 一个室内 用try except,这时我们将两个数据存到字典里。最后 return indoor outdoor。 if name == 'main': long_jump(url=)

	接下来是第三个脚本:
from __future__ import print_function

import pymongo(PyMongo是驱动程序,使python程序能够使用Mongodb数据库,使用python编写而成.) import requests from bs4 import BeautifulSoup import json(JSON 是轻量级的文本数据交换格式。是用来存储和交换文本信息的语法。)) from long_jump (脚本名)import *(引用第二个脚本) 1:db = pymongo.MongoClient().iaaf() 2:headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15’}(同上理) 3:def get_href():
href_list = db.athletes.find() Count = 1(负责去mongo中取href 然后访问得到的数据存到原来的表中) 4: for i in href_list:( 取id 根据id把爬来的生涯数据插回去) print(count) 5: db.athletes.update({'_id':i.get('_id')},{"$set"{"outdoor":outdoor,"indoor":indoor}}) count += 1(获得具体数据) 6:if name == 'main': get_href()

				第四个脚本:
				from __future__ import print_function
      import xlwt(Python语言中,写入Excel文件的扩展工具。

相应的有xlrd扩展包,专门用于excel读取。) import pymongo 1:def write_into_xls(cursor): title = ['Rank','Mark','age','Competitior','DOB','Nat','country','Venue','Date','out_year','out_performance','out_wind','out_place','out_date','in_year','in_performance','in_place','in_date']

book = xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet = book.add_sheet('iaaf',cell_overwrite_ok=True)

2: flag = 1 db = pymongo.MongoClient().iaaf for i in country_l: cursor = db.athletes.find({'Nat':i}) for i in cursor: print(i) count_out = len(i['outdoor']) count_in = len(i['indoor']) count = 1 if count_out >= count_in: count = count_out else: count = count_in if count == 0: count = 1(count 为这条数据占的行数) 3: flag = flag + count

book.save(r'iaaf.xls')(开始从第一行输入数据并且从数据库取)

if name == 'main': write_into_xls(cursor=None)(生成文件iaaf.xls这时便可用Ecxel查看数据) ***顺便记录一下查看如何查看数据库的内容两种方法: 1: ./mongo show dbs
数据库 : iaaf
use iaaf
show tables ---- athletes

    db.athletes.find()   

2: pymongo db = pymongo.MongoClient().iaaf for i in db.athletes.find(): print i