首先要了解对方网页的执行机制 ,这能够用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比較简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。通常会包括cookie,Referer页面和其它一些乱其八糟可能看不懂的变量,还有就是正常交互的參数,比方须要post或者get的querystring所包括的东西。

httplook和httpwacth 网上有非常多下载的,这里推荐使用httpwach,由于能够直接嵌入到ie中,个人认为这个比較好用。这两个工具能够到我上传在csdn的资源中下载,地址为

javascript:void(0)

这里简单给出一段能够抓取数据的c#代码,比方登录某个站点,获取登录成功后的html代码,供数据分析使用。

从网页抓取数据的一般方法_phpprivate   void  login()
从网页抓取数据的一般方法_数据分析_02从网页抓取数据的一般方法_数据_03         
... {
从网页抓取数据的一般方法_数据分析_04             System.Net.WebClient wb 
=   new  System.Net.WebClient();
从网页抓取数据的一般方法_数据分析_04
从网页抓取数据的一般方法_数据分析_04             System.Collections.Specialized.NameValueCollection header 
=   new  System.Collections.Specialized.NameValueCollection();
从网页抓取数据的一般方法_数据分析_04             header.Add(
" Cookie " " czJ_cookietime=2592000; czJ_onlineusernum=1651; czJ_sid=w4bGJd " );
从网页抓取数据的一般方法_数据分析_04             header.Add(
" Referer " @" http://www.test_by_jinjazz.com.cn/bbs/login.php " );
从网页抓取数据的一般方法_数据分析_04             wb.Headers.Add(header);
从网页抓取数据的一般方法_数据分析_04             System.Collections.Specialized.NameValueCollection data 
=   new  System.Collections.Specialized.NameValueCollection();
从网页抓取数据的一般方法_数据分析_04             data.Add(
" formhash " " ebd2faac " );
从网页抓取数据的一般方法_数据分析_04             data.Add(
" referer " " http://www.test_by_jinjazz.com.cn/bbs/search.php " );
从网页抓取数据的一般方法_数据分析_04             data.Add(
" loginfield " " username " );
从网页抓取数据的一般方法_数据分析_04             data.Add(
" username " " jinjazz " );
从网页抓取数据的一般方法_数据分析_04             data.Add(
" password " " 999 " );
从网页抓取数据的一般方法_数据分析_04             data.Add(
" questionid " " 0 " );
从网页抓取数据的一般方法_数据分析_04             data.Add(
" answer " "" );
从网页抓取数据的一般方法_数据分析_04             data.Add(
" cookietime " " 2592000 " );
从网页抓取数据的一般方法_数据分析_04             data.Add(
" loginmode " "" );
从网页抓取数据的一般方法_数据分析_04             data.Add(
" styleid " "" );
从网页抓取数据的一般方法_数据分析_04             data.Add(
" loginsubmit " " 提交 " );
从网页抓取数据的一般方法_数据分析_04
从网页抓取数据的一般方法_数据分析_04             
byte [] b  =  wb.UploadValues( " http://www.test_by_jinjazz.com.cn/bbs/login.php " " Post " , data);
从网页抓取数据的一般方法_数据分析_04             
string  strData  =  System.Text.Encoding.Default.GetString(b);
从网页抓取数据的一般方法_数据分析_04             Console.WriteLine(strData);
从网页抓取数据的一般方法_数据_26         }

从网页抓取数据的一般方法_php

以上代码除了三个url之外其它数据都是真实的,当中header和data中的參数和值都是用httpwatch来监測后得到。