数据是科研活动重要的基础。本系列博客将讲述如何使用Java工具获取网络的数据。首先,我们讲述一下爬虫的基本原理。爬虫的基本原理很简单,就是利用程序访问互联网,然后将数据保存到本地中。我们都知道,互联网提供的服务大多数是以网站的形式提供的。我们需要的数据一般都是从网站中获取的,如电商网站商品信息、商品的评论、微博的信息等。爬虫和我们手动将看到的数据复制粘贴下来是类似的,只是获取大量的数据靠人工显然不
转载 2023-08-16 16:42:10
79阅读
                                                        &nbs
转载 2023-05-31 08:34:05
62阅读
最近在弄一个高并发项目,经过接口压测后,各项指标不禁人意,也一直在搞程序调优(Nginx、Redis、数据库)。真的是被虐得是体无完肤,发丝也日渐脆弱。哎………….还在锤炼中………在调优的过程中,我把在程序中遇到多线程优化的几个场景案例记录分享一下,以供学习和交流。场景一:数据拆分多个subList, 分批多线程导入// map拆分成多个subList List<Map<String,
转载 2023-08-31 21:26:21
49阅读
什么是工厂设计模式?工厂设计模式,顾名思义,就是用来生产对象的,在java中,万物皆对象,这些对象都需要创建,如果创建的时候直接new该对象,就会对该对象耦合严重,假如我们要更换对象,所有new对象的地方都需要修改一遍,这显然违背了软件设计的开闭原则,如果我们使用工厂来生产对象,我们就只和工厂打交道就可以了,彻底和对象解耦,如果要更换对象,直接在工厂里更换该对象即可,达到了与对象解耦的目的;所以说
之前一直都没怎么记录自己学习的内容,但是发现之前好多犯过的错自己还是会犯第二遍,现在在csdn上做一些日常记录防止忘记,而且有助于记忆和巩固。1.打开写博客的默认页面,写了一段在贴图的时候发现写不下去了 ,那个编辑器太难用了,想在图片上边插入文字,发现怎么搞都不合适 2.百度了一下,然后发现别人都是使用markdown进行编辑的,直接打开网址)就可以进行编辑了,3.每次都输网址有点麻烦,毕
转载 2023-06-30 22:34:24
73阅读
一. 面向对象的介绍和理解1. 面向对象的介绍Java是一门纯面向对象的语言(Object Oriented Program,继承OOP),在面向对象的世界里,一切皆为对象。面向对象是解决问题的一种思想,主要依靠对象之间的交互完成一件事情。用面向对象的思想来涉及程序,更符合人们对事物的认知,对于大型程序的设计、扩展以及维护都非常友好。2. 面向对象的理解利用生活中洗衣服的例子理解面向对象:1).传
转载 2024-09-26 09:04:49
33阅读
1. 基于selenium实现12306登录 #下述代码为超级鹰提供的示例代码 import requests from hashlib import md5 class Chaojiying_Client(object): def __init__(self, username, password ...
转载 2021-05-29 22:54:56
229阅读
2评论
Python爬虫批量下载pdf  网页url为https://www.ml4aad.org/automl/literature-on-neural-architecture-search/,是一个关于神经网络架构搜索的文章页面。其中有许多的文章,其中标题为黑体的是已经发布的,不是黑体的暂未发布。我们的第一个任务是下载url链接内的pdf文档。  对网页源代码进行简要的分析,&n
转载 2023-08-09 19:12:58
174阅读
前言  从新数据库 mongodb 到基于内存的 key-value 数据库 Redis,从 scrapy 爬虫框架到 re 正则表达式模块,尤其正则,以前不会写的时候总是依赖 string 的各种方法,部分时候显得有些繁琐,会正则了之后在字符串的匹配、查找、替换、分隔方面打开了另一扇便捷
转载 2023-09-27 23:11:55
65阅读
WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主
转载 2023-12-28 22:48:34
19阅读
互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前。一、爬虫是什么?如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序。从技术层面来说就是 通过程序
转载 2024-05-02 08:52:31
20阅读
网络爬虫介绍 在大数据时代,信息的采集是一项重要的工作,而互联网中的数据是海量的,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。网络爬虫(Web crawler)也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。它是一种按照一定的规则,自动地抓取万维网
今天为大家整理了32个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)OWechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签
转载 2023-07-01 01:03:44
104阅读
几个Java的网络爬虫,有兴趣的可以参考一下,也可以改成C#的。我用过其中J-spider,只爬取网页,不做解析。感兴趣的可以把这个下载下来,看看源代码。我最初的爬虫就是用J-spider扩展的,后来因为字符的编码问题,就放弃了改用C#。   页面:http://www.open-open.com/68.htmHeritrix  点击
转载 1月前
457阅读
其实爬虫是一个对计算机综合能力要求比较高的技术活。首先是要对网络协议尤其是 http 协议有基本的了解, 能够分析网站的数据请求响应。学会使用一些工具,简单的情况使用 chrome devtools 的 network 面板就够了。我一般还会配合 postman 或者 charles 来分析,更复杂的情况可能举要使用专业的抓包工具比如 wireshark 了。你对一个网站了解的越深,越容易想出简单
转载 2024-08-14 11:46:07
72阅读
 RBSE 是第一个发布的爬虫。它有两个基础程序。第一个程序“spider”,抓 取队列中的内容到一个关系数据库中;第二个程序“mite”,是一个修改后的WWW 的ASCII 浏览器,负责从网络上下载页面。  WebCrawler 是第一个公开可用的,用来建立全文索引的一个子程序,它使用 WWW 库下载页面,使用宽度优先算法来解析获得URL 并对其进行排序,并包括 一个根据
转载 2024-01-25 22:22:12
49阅读
爬虫原理和思想 本项目实现的基本目标:在捧腹网中,把搞笑的图片都爬下来,注意不需要爬取头像的图片,同时,将图片命好名放在当前的img文件中。爬虫原理和思想 爬虫,就是从网页中爬取自己所需要的东西,如文字、图片、视频等,这样,我们就需要读取网页,然后获取网页源代码,然后从源代码中用正则表达式进行匹配,最后把匹配成功的信息存入相关文档中。这就是爬虫的简单原理。 思想步骤:  读取网页并获取源
取消合法性检验以改进爬取方案我这里要讲的是在确认程序语法无误后,以故意制造 AtttributeError 来完善爬取策略,算不上什么方案,一点写法上的小技巧吧。这个报错具体解释起来就是 'NoneType' object has no attribute ,类似于 java 里面的空指针异常。首先,解决这个异常的方式很简单,比如让 soup 在查找上一级标签的时候做一次是否为空的判断,如果不为空
一、爬虫之requests    a、介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3)    b、注意:requests发送请求是将网页内容下载来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的requests请求    c、安
转载 2023-12-11 11:13:21
71阅读
最近在学习爬虫的相关知识,跟着课程做了一个豆瓣的爬虫项目爬虫部分有一百多行的代码,有一些复杂,下面贴上代码和跟着做的一些笔记,大家可以参考一下。爬虫主要分为三个步骤 :(1)爬取网页       在爬取网页时要注意模拟浏览器头部信息,将自己伪装成浏览器,向服务器发送消息,防止直接爬取时报错。(2)逐一解析数据      &nb
  • 1
  • 2
  • 3
  • 4
  • 5