[ASP.NET]强大的网页处理类NSoup

原创

蓬莱仙羽 2023-05-08 17:29:33 ©著作权

文章标签 NSoup NSoup乱码问题 html Parse HTML 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者蓬莱仙羽的原创作品，请联系作者获取转载授权，否则将追究法律责任

我们如果在项目中碰到要处理HTML，如果是.NET程序员的话，强烈推荐使用NSoup，不然的话截取字符串是在是太痛苦了。NSoup是一个开源框架，是JSoup的.NET移植版本，使用方法基本一致！NSoup点击下载

获取网页的html代码

处理网页html

1. <span style="font-family: Arial, Helvetica, sans-serif;">NSoup.Nodes.Document doc = NSoup.NSoupClient.Connect(").Get();</span>

或者是自定义html，生成html页面

1. NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(HtmlString);

但是很遗憾NSoup默认的是UTF-8，处理中文会有乱码（对于编码是UTF-8自然会正常，但是有些是GB2312的就可能有乱码）

解决NSoup解析HTML乱码的办法

1.下载网页源代码再处理

1. //下载网页源代码
2. WebClient webClient = new WebClient();  
3. string htmlString = Encoding.GetEncoding("utf-8").GetString(webClient.DownloadData("http://www.baidu.com"));  
4. NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(htmlString);

2.获得网页的流

1. //获得网页流
2. WebRequest webRequest = WebRequest.Create("javascript:void(0)");  
3. NSoup.Nodes.Document doc1 = NSoup.NSoupClient.Parse(webRequest.GetResponse().GetResponseStream(), "utf-8");