本篇博客主要和大家分享编写一个学校教务系统的客户端版本,主要是关于登录以及数据获取方面,结尾还会附上本人以前编写的客户端源代码,有兴趣的可以自行下载玩耍~
阅读本文大概需要5分钟。
前言
好久没有更新博客了,最近有点忙。今天对之前在学校做的一个项目开源,并以正方教务系统为例,分享下如何抓取教务系统的数据~ 好了废话不多说直接开始。
分析
搭建一个App,首先离不开的肯定就是数据,在通常情况下,App的数据都是由服务器提供的接口返回的,但是一般来说,学校都是不会把数据以及服务器提供给学生的,所以就要采取一些非正常手段。我们知道,网页是由浏览器解析html代码后展现出来的,那么只要我们拿到html代码,自己抓取html里我们所需要的数据,就能完成对数据的获取了。
这里我使用的是一个能方便处理html文本的java库Jsoup,对于它的具体用法可以参考我之前的文章《Android利用Jsoup抓取数据,再也不怕写App没有数据啦》,这里就不再赘述了。
登录
Cookie保存
通常我们使用浏览器去访问我们的教务系统的时候,服务器都是通过cookie来对我们当前的状态进行判断以便获取我们的登录状态,那么为了能让我们的登录状态得以持续,以便我们后续对其他数据的抓取,我们在客户端中需要对cookie进行一下存储。
因为我采用的是OkHttp来作为网络请求,所以这里以OkHttp为例
OkHttpClient okHttpClient = new OkHttpClient.Builder().
connectTimeout(CONNECT_TIMEOUT, TimeUnit.SECONDS).
readTimeout(READ_TIMEOUT, TimeUnit.SECONDS).
writeTimeout(WRITE_TIMEOUT, TimeUnit.SECONDS).
cookieJar(new OkHttpCookieJar()).
build();
public class OkHttpCookieJar implements CookieJar {
private Map> cookieStore = new HashMap<>();
@Override
public void saveFromResponse(HttpUrl url, List cookies) {
cookieStore.put(url.host(), cookies);
}
@Override
public List loadForRequest(HttpUrl url) {
List cookies = cookieStore.get(url.host());
return cookies != null ? cookies : new ArrayList();
}
}
这里我只将其存入到了一个map中,并没有对cookie进行持久化存储(比如通过SharedPreferences)等等,所以意味着每次重新打开客户端都需要登录一遍,大家可以根据自己的需求进行改造。
模拟登录
首先我们需要先抓取到登录的接口,以Chrome为例,按F12打开开发者工具,然后选择Network,勾选Preserve log。
DevTools
然后进行一次正常的登录,就可以抓取到登录的url以及请求头,表单数据等等(图片对一些敏感数据做了处理)。
登录
可以看到请求头以及表单所需要的内容,根据你所填的账号密码验证码等等,很快就能判断出对应的key,以我之前学校为例的话,TextBox1对应账号,TextBox2对应密码,TextBox3对应验证码,RadioButtonList1就是身份了,然后你肯定发现了,_VIEWSTATE是什么鬼,因为这个正方教务系统是用Asp.net写的,那个_VIEWSTATE就是.net的,这里我们不探究它到底做啥用的,据我观察,这个值并不是永远不变的,所以这里我们肯定是要在每次登录的时候获取它并把它放到表单里,那从哪里获取它呢。还是一样,F12然后查看登录页面的html源码,
html
可以发现这个_VIEWSTATE的变量值就存在于form表单中,那么一切都很简单了,先获取一次登录页面,拿到了_VIEWSTATE的值之后,在登录的时候将这个值一起post上去就可以了。即为拿到登录页面的html源码,使用Jsoup筛选出需要的值,然后登录的时候一并post上去
String __VIEWSTATE = Jsoup.parse(html).select("input[name='__VIEWSTATE']").val();
这里不再赘述Jsoup的具体用法,可以参考我之前的文章。以OkHttp为例,附上简单的登录代码
RequestBody requestBody = new MultipartBody.Builder().
addFormDataPart("__VIEWSTATE", __VIEWSTATE ).
addFormDataPart("TextBox1", username).
addFormDataPart("TextBox2", password).
addFormDataPart("TextBox3", verificationCode).
addFormDataPart("Button1", "").
addFormDataPart("RadioButtonList1", "学生").build();
Request request = new Request.Builder().url(loginUrl).post(requestBody).build();
okHttpClient.newCall(request).enqueue(new Callback() {
@Override
public void onFailure(Call call, IOException e) {
}
@Override
public void onResponse(Call call, Response response) throws IOException {
}
});
整个登录流程如下
登录
关于验证码,这里要补充一点,即请求验证码图片的cookie要和你登录的时候一致,验证码才能通过,从代码角度来说,以OkHttp为例,你需要用同一个OkHttp对象去完成请求验证码以及登录等等(就是不要new 两个对象啦)~
抓取数据
登录成功后,我们现在已经能够拿到各个模块的数据了,那么一切都好办了。具体怎么拿这里以获取课表为例,同理其他的获取成绩等等均是这个思路
首页
正方教务系统的首页一般都是这个样子的,我们老规矩,F12查看一下html源码
html
可以看到,各个模块的url均能拿到,老规矩,直接拿到源码,Jsoup解析一下
Map urlMap = new HashMap<>();
Document document = Jsoup.parse(html);
Elements elements = document.select("ul.nav li.top ul.sub li a");
for (Element element : elements) {
String value = "教务网的host" + "/" + element.attr("href").toString();
String key = element.text();
urlMap.put(key, value);
}
return urlMap;
这里我直接保存到map集合中,因为html中的url是在同个域下的,所以抓取出来的url是不包含域名的,这里我们手动把它拼上就可以了,现在我们拿到对应模块的url,还是老套路,按照所需要的参数进行访问,拿到html源码
html
按照规则使用Jsoup进行解析就行了,这里就不再赘述了,最后效果如下
demo
总结
因为篇幅问题,所以本文难以很细致的讲清楚整个项目的每个细节,只能大概的将整个思路分享出来,如果有兴趣的也可以自行clone源码进行查看,为了方便大家查看demo的效果,我在demo里已经放入了一些html静态页面,不用账号密码即可直接登录。
源码地址:教务管理系统
关于快速替换为自己学校的教务系统
如果你学校的教务系统也是正方,那么这里提供一下比较快速的替换方法,但可能由于css样式等差异,具体可能还是需要微调,就需要你根据你学校教务系统的html源码进行调整了。
1.首先,CommonUtils.java中的isDemo改为false
public class CommonUtils {
public static boolean isDemo = true; // 改为false
....
}
3.运行App,看哪里解析有问题,针对你学校教务系统的html代码,根据css样式等差异进行微调。