想试着模拟登陆一些网站,这次先拿学校的教务管理系统练练手,写一下登陆的流程。

1.我们登陆的url:http://222.195.8.201,但我们所填的密码不是提交到这个页面上去,检查一下页面代码

教务系统管理java 教务系统管理系统登录_请求报文

 

 我们看到提交后post数据是提交到pass.asp页面。或者在chrome上F12点击登陆查看跳转的页面:

教务系统管理java 教务系统管理系统登录_请求报文_02

根据时间的顺序第一个页面就是pass.asp,确实这就是提交的页面。后面也是服务器传过来的页面。

2.登陆原理也很简单,提交表单获取cookie,然后以后利用所携带的cookie来构建请求报文访问其他的页面。

我们在首次登陆时点击提交服务器返回cookie存储在用户本机

教务系统管理java 教务系统管理系统登录_教务系统管理java_03

这就是我们提交表单后所得到的cookie内容,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。往后在访问相同站点的其他url时请求报文就会假如cookie,服务器利用cookie来对用户进行识别,我们登陆之后点击其他页面我们查看提交报文中就含有相同的cookie。

教务系统管理java 教务系统管理系统登录_请求报文_04

一下就是访问其他页面返回的html

教务系统管理java 教务系统管理系统登录_数据_05

1 import urllib    
 2 import urllib2  
 3 import cookielib  
 4 #声明一个cookieJar对象实例来保存Cookie
 5 cookie = cookielib.CookieJar()
 6 #声明一个urllib2.HTTPCookieProcessor对象创建一个cookie处理器
 7 handle=urllib2.HTTPCookieProcessor(cookie)
 8 #构建一个opener
 9 opener = urllib2.build_opener(handle)  
10   
11 #需要POST的数据,查看formData#  
12 postdata=urllib.urlencode({    
13     'UserStyle':'student',
14     'user':'你的学号',
15     'password':'你的密码',
16     'method': 'POST'
17 })  
18 #自定义一个请求#  
19 req = urllib2.Request(    
20     url = 'http://222.195.8.201/pass.asp',    
21     data = postdata
22    
23 )  
24 #访问该链接#  
25 result = opener.open(req)
26 
27 #打印返回的内容#  
28 print result.read()
29 #查看cookie#
30 for item in cookie:    
31     print 'Cookie:Name = '+item.name    
32     print 'Cookie:Value = '+item.value  
33 #查看成绩一栏#
34 res=opener.open('http://222.195.8.201/student/asp/xsxxxxx.asp')
35 print res.read()

抓取到页面后剩下的就交给BeautifulSoup了