想试着模拟登陆一些网站,这次先拿学校的教务管理系统练练手,写一下登陆的流程。
1.我们登陆的url:http://222.195.8.201,但我们所填的密码不是提交到这个页面上去,检查一下页面代码
我们看到提交后post数据是提交到pass.asp页面。或者在chrome上F12点击登陆查看跳转的页面:
根据时间的顺序第一个页面就是pass.asp,确实这就是提交的页面。后面也是服务器传过来的页面。
2.登陆原理也很简单,提交表单获取cookie,然后以后利用所携带的cookie来构建请求报文访问其他的页面。
我们在首次登陆时点击提交服务器返回cookie存储在用户本机
这就是我们提交表单后所得到的cookie内容,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。往后在访问相同站点的其他url时请求报文就会假如cookie,服务器利用cookie来对用户进行识别,我们登陆之后点击其他页面我们查看提交报文中就含有相同的cookie。
一下就是访问其他页面返回的html
1 import urllib
2 import urllib2
3 import cookielib
4 #声明一个cookieJar对象实例来保存Cookie
5 cookie = cookielib.CookieJar()
6 #声明一个urllib2.HTTPCookieProcessor对象创建一个cookie处理器
7 handle=urllib2.HTTPCookieProcessor(cookie)
8 #构建一个opener
9 opener = urllib2.build_opener(handle)
10
11 #需要POST的数据,查看formData#
12 postdata=urllib.urlencode({
13 'UserStyle':'student',
14 'user':'你的学号',
15 'password':'你的密码',
16 'method': 'POST'
17 })
18 #自定义一个请求#
19 req = urllib2.Request(
20 url = 'http://222.195.8.201/pass.asp',
21 data = postdata
22
23 )
24 #访问该链接#
25 result = opener.open(req)
26
27 #打印返回的内容#
28 print result.read()
29 #查看cookie#
30 for item in cookie:
31 print 'Cookie:Name = '+item.name
32 print 'Cookie:Value = '+item.value
33 #查看成绩一栏#
34 res=opener.open('http://222.195.8.201/student/asp/xsxxxxx.asp')
35 print res.read()
抓取到页面后剩下的就交给BeautifulSoup了