using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Windows;using System.Windodows.Documents;us...
原创 2022-10-28 16:25:26
67阅读
最推荐的框架就是: anglesharp :http://anglesharp.github.io/非常棒,日后会不断更新
原创 2022-09-15 10:26:37
248阅读
HTTP请求工具类(功能:1、获取网页html;2、下载网络图片;): using System; using System.Collections.Generic; using System.Drawing; using System.IO; using System.Linq; using Sy
原创 2022-04-30 12:21:19
1301阅读
最近在摸索爬虫相关的东西,写点随笔,以便忘记。目的与用途现实的项目中,我们需要太多的第三方接口了。而往往这些第三方接口由于条件限制,一时拿不到。譬如:1. 淘宝网今天有什么特价商品。2. 百度今天的热搜榜是什么。3. 某用户的水电、话费、煤气有没有欠费,欠了多少。等等问题,怎么办呢?解决不了就请程序员出马,因为程序员是万能的,程序员是无敌的。 原理既然我们没有能力(财力)与阿里巴巴、百度等第三方做
转载 2021-05-16 08:09:00
360阅读
2评论
原理我们知道,一般需要登录的网站,服务器和客户端都会有一段时间的会话保持,而这个会话保持是在登录时候建立的, 服务端和客户端都会持有这个KEY,在后续访问时,都需要核对这两个KEY是否一致。 而客户端的这个KEY就存在cookie中。 因此,我们需要获取登录后的cookie值,并在后续的访问中,都添加这个cookie。这样才能做到模拟登录的效果。 例子:我们以获取博客园首页的园龄为例。需要做三步1
转载 2021-05-16 08:12:00
943阅读
2评论
目前对网页的爬虫一个是对网页直接爬取数据和WeiAPI的方式爬取,这取决于网址用的什么时候渲染的数据,然后展示在网页中。首先我们对某一个网址准备爬取数据时候,你需要去研究这个网址是后台给前台是数据还是网页,这个时候我推荐 Fiddler 或者Fiddler.exe 和  postman  这两个软件进行研究,具体安装方式和使用方式可百度,有很多的教程;如果你不想下载,那在浏览器中按住 F12,然后
转载 2021-05-05 21:10:28
1454阅读
2评论
一、介绍: Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。 1、Selenium Webdriver(也就是Selenium2,Selenium3)和Selenium RC(Selenium 1)一样提供了web自动化的各种语
转载 2020-06-10 19:44:00
618阅读
2评论
   c# 爬虫(三) 文件上传     在上一篇中,我们说了模拟登录,下面我们说说附件上传。据说,最早的http协议是不支持附件上传的,后来有添加了一个RFC 2045 协议,才支持附件上传,关于附件上传,请参见http://www.cnblogs.com/greenerycn/archive/2010/05/15/csharp_http_post.html 好了,其实用C#模拟上传
转载 2021-05-16 08:16:00
365阅读
2评论
原文 C#制作多线程处理强化版网络爬虫 上次做了一个帮公司妹子做了爬虫,不是很精致,这次公司项目里要用到,于是有做了一番修改,功能添加了网址图片采集,下载,线程处理界面网址图片下载等。 说说思路:首相获取初始网址的所有内容 在初始网址采集图片 去初始网址采集链接 把采集到的链接放入队列 继续采集图片
转载 2016-09-19 14:31:00
153阅读
2评论
运行结果:using System;using System.Drawing;using System.Te
原创 2021-11-30 15:55:19
78阅读
要写一个使用C#和HttpClient的爬虫程序。首先,我需要了解HttpClient的基本用法。HttpClient是用来发送HTTP请求和接收响应的类,对吧?我记得在C#中使用它的时候需要注意一些事情,比如最好使用单例实例,而不是频繁创建和销毁,这样可以避免端口耗尽的问题。
原创 6月前
54阅读
C#爬虫系列教程一、爬虫基础知识爬虫相关知识点和HTTPSHTTP:Hyper Text Transfer Protocol 超文件传输协议 HTTP协议是用于网络传输超文本数据到本地的传输协议HTTPS:Hyper Text Transfer Protocol over Secure Socket Layer 超文本传输安全协议 HTTPS协议是HTTP的安全版,加入SSL层,数据传输经
原创 2022-12-01 11:46:20
3293阅读
背景开发爬虫程序,如果不做代理设置,本机的外网IP很容易被网站封掉,导致不能持续进行数据抓取。而Seleni
转载 2021-11-30 11:56:33
864阅读
是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据 库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链 接……对于不同的用户,蜘蛛程序有不同的用途。那么,蜘蛛程序到底是怎样工作的呢? 蜘蛛是一种半自动的程序,就象现实当中的蜘蛛在它的Web(蜘蛛网)上旅行一样,蜘蛛程序也按照类似的方式在Web链接织成的网上旅行。蜘蛛程序之 所以是半自动的,是因为它总是需要一个初始链接(出发点),但此后的运行情况就要由它自己决定了,蜘蛛程序会扫描起始页面包含的链接,然后访问这些链接指 向的页面
转载 2011-06-09 04:03:00
55阅读
2评论
一、简介 AngleSharp:https://github.com/AngleSharp/AngleSharp AngleSharp中文官方文档 https://www.cnblogs.com/cgzl/p/8970582.html https://blog.csdn.net/qq_3605131
转载 2020-07-10 10:53:00
437阅读
2评论
转载 2020-07-10 10:50:00
388阅读
2评论
​刚刚完成一个简单的网络爬虫,因为在做的时候在网上像无头苍蝇一样找资料。发现了很多的资料,不过真正能达到我需要,有用的资料--代码很难找。所以我想发这篇文章让一些要做这个功能的朋友少走一些弯路。首先是抓取Html源码,并选择<ul class="post_list">  </ul>节点的href:要添加 using System.IO;using System.Net;12
转载 2016-04-22 14:05:00
156阅读
2评论
写了一个小爬虫,把发表的博客全都备份了下。获取发表过的文章信息,存入到数据库。C#中用 AngleSharp这个组件就可以像用linq一样就行html标签的查询操作。所以从html里获取需要的内容是非常方便的具体代码,随便写的:using AngleSharp.Parser.Html; using System; using System.Collections.Generic; usi
原创 2023-05-05 16:21:39
147阅读
我们在使用爬虫ip在请求网站时,经常会遇到失败的情况,如果排除爬虫ip方面的问题,那么可能就是自己写的爬虫代码问题了。优秀的程序员会让程序简洁实用,而且随时可以增加工作量随时增加代码,那么在爬虫中使用C#语言应该怎么写?下面的代码可以看看:
原创 2022-10-20 14:05:09
203阅读
这个版本主要是以百度图片为对象,对其进行爬虫操作,实现了最基本的下载功能,但是缺陷非常多,日后还会对其进行改进。 打开百度图片,同时打开开发者工具,我们会发现,百度图片是通过如下的一段ajax来加载图片的。 http://image.baidu.com/search/index?tn=baiduim
qt
原创 2021-07-15 15:39:23
157阅读
  • 1
  • 2
  • 3
  • 4
  • 5