我们如果在项目中碰到要处理HTML,如果是.NET程序员的话,强烈推荐使用NSoup,不然的话截取字符串是在是太痛苦了。NSoup是一个开源框架,是JSoup的.NET移植版本,使用方法基本一致!NSoup点击下载
获取网页的html代码
处理网页html
1. <span style="font-family: Arial, Helvetica, sans-serif;">NSoup.Nodes.Document doc = NSoup.NSoupClient.Connect(").Get();</span>
或者是自定义html,生成html页面
1. NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(HtmlString);
但是很遗憾NSoup默认的是UTF-8,处理中文会有乱码(对于编码是UTF-8自然会正常,但是有些是GB2312的就可能有乱码)
解决NSoup解析HTML乱码的办法
1.下载网页源代码再处理
1. //下载网页源代码
2. WebClient webClient = new WebClient();
3. string htmlString = Encoding.GetEncoding("utf-8").GetString(webClient.DownloadData("http://www.baidu.com"));
4. NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(htmlString);
2.获得网页的流
1. //获得网页流
2. WebRequest webRequest = WebRequest.Create("javascript:void(0)");
3. NSoup.Nodes.Document doc1 = NSoup.NSoupClient.Parse(webRequest.GetResponse().GetResponseStream(), "utf-8");
效果图
会发现跟百度的源码是一样的
cocos2dx QQ群:280818155
====================== 相互学习,共同进步 ===================