目录READMEjava 爬虫,采用webmagic框架。目的爬取百度的数据,并做一些统计与数据分析,非商业,纯属个人娱乐。近期工作项目有用到爬虫,便开始学习并写了个demo。采用的是webmagic爬虫框架,爬取的内容有:帖子,帖子回复,用户主页。项目为springboot 1.5.7版本,提供数据持久化,前端采用echart做数据分析图表展示。百度的数据只能爬取到99999页,即不超过
百度爬虫小程序源码
转载 2023-05-31 13:20:12
108阅读
#Hello World在百度 java 老是有人说求教程啥的。其实网上能找到的教程太多了,但java貌似没有自己里的一套教程。这个系列的博客就是为了回应这种现象。毕竟总要有人做= =吧主们都是上班一族,挺忙的,这种耗时没准还不讨好(稍微写错一点就会有很多人喷)的工作确实不会有什么兴趣,那么这个任务只好吧友完成了。##本期任务流程JAVAJDKEclipse使用Eclipse写一段具
    都说在百度发广告很能给网站带流量,一直都没尝试过。一来要做的事情太多,分不出精力来;二来我自己从没去过,对它能带来多少流量有点将信将疑。但看着网站流量一直萎靡不振,这也是我能想到的最后一招了。终于,我决定出手了。     一比二购是比较购物性质的网站,咱总不能找超女下手,下场一定会很惨。搜索了一下,有个购物,人气
原创 2007-01-30 12:55:20
627阅读
3评论
#coding:utf-8import requestsimport randomclass TiebaSpider:    def __init__(self,tieba_name):        self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) Ap
原创 2017-11-12 19:58:57
692阅读
# -*- coding: utf-8 -*- from bs4 import BeautifulSoup import re import os import urllib2 import urllib def download_img(urls,k): #urls = "http://tieba.baidu.com/p/4807867791" page = urllib2...
转载 2016-11-30 15:01:00
153阅读
2评论
目录openwrt-自动签到插件下载openwrt-插件安装需要的依赖openwrt-插件安装-文件上传openwrt-自动签到配置-设置详情 Cookie获取失败-解决方法Charles-抓包获取Cookie openwrt-配置自动签到完成 openwrt-自动签到插件下载自动签到插件下载地址:jerrykuku/luci-app-jd-dailybonushtt
转载 2023-07-25 20:34:49
679阅读
  己装机子或排除软件故障对于大多数DIYer来说是常有的事,但是对于某些硬件故障,比如主板的某些硬件小故障,许多人是无从下手。其实,某此主板的故障完全是可以自己动手排除的。笔者虽然不是专门从事维修行业的,但是在工作时常常会遇到类似的问题,自己动手试一试,也修好过不少板子。下面我就通过几个具体的例子,介绍一下排除某些常见主板故障的过程。   大家都知道热插拔硬件容易有危险,但是因为热插拔引起的故障
排名模拟公式:历史帖子数×a+新增帖子数×b+∑(单一帖子浏览量÷该帖回复总数)×c+独立ip数×d=总人气值其中,a、b、c、d为系数,如果系数为1,则×1;(单一帖子浏览量÷该帖回复总数)这个比率只有在百度认可的一个范围,譬如说5-8之间才能得到加分,有些每日新增的帖子数表面上虽然很多,但是如果帖子质量不高,就可能造成浏览帖子的用户数很少,就不能得到相应的人气值分数了。为了方便大家对于...
原创 2021-06-18 11:59:45
494阅读
每次写的时候总是正则表达式出现问题,还需多多练习正则表达式的书写,需要耐心、细心# coding: utf-8# 引入请求包import requests# 引入正则表达式包import re# 1.准备urlurl = 'https://tieba.baidu.com/p/5082744218'# 2.获取网页源代码,发起请求接收响应response = request
原创 2023-02-02 11:01:37
124阅读
华为认证证书是华为公司专门为IT从业人员设计的一种证书,它能够证明持有者在华为产品和解决方案方面具有专业的知识和技能。拥有华为认证证书不仅可以提升个人的职业竞争力,还可以为企业带来更多的商机和竞争优势。 在过去的几年里,越来越多的从业人员开始关注并参与华为认证证书的考试。他们通过学习华为的培训课程,准备相关考试并成功获得证书,从而在行业中脱颖而出。在这个过程中,百度作为一个互联网社区平台,为
原创 5月前
24阅读
本着周末逛看图片,发现电脑运行内存太小,网页加载太慢,一怒之下写个爬虫把图片都下载到本地慢慢看 得到结果如下: 千张内涵图随意浏览 程序第一个选项: 对应的是: 第二个选项: 对应的是 抓取的对象为楼主所发的图片: 好的,开搞: 下面是基于python3写的 通过观察,得到爬虫思路为:
原创 2022-08-10 18:00:15
198阅读
作为一名不合格的SEO,每天的工作自然和这几大互联网巨头有所接触,不过接触最多的还是娘。用什么方法可以使娘主动为你搔首弄姿,这就得八仙过海,各显神通了。短视频,好像是从WIFI覆盖的时候,就逐渐走入了众人的视野。随着字节跳动旗下抖音的推波助澜,火遍大江南北,于是各大互联网巨头纷纷跳入海中与之搏斗。
原创 2021-09-16 13:39:51
10000+阅读
自己写了百度的爬虫,分别用urllib+正则和requests+xpath两种方式,对比了执行效率
原创 2018-08-01 23:15:16
1407阅读
被写文件坑了一晚上,因为自己写了writeFile(),但是调用的是WriteFile()刚好python里面有WriteFile()所以刚好不报错!!!!! #_*_ coding: utf-8 _*_ ''' Created on 2018 7月12号 @author: sss 类型:get请求 功能:爬取百度的页面,可以分页 ''' from pip._vendor.distlib
转载 2018-07-12 20:45:00
223阅读
2评论
练习之代码片段,以做备忘:# encoding=utf8 from __future__ import unicode_literals import urllib, urllib2 import re import os import threading def get_html(url): try: url = url.encode('utf-8')
转载 2023-07-04 21:24:39
90阅读
一、获取URL Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数: urllib.urlopen()方法用于打开一个URL地址。 read()方法用于读取URL上的数据,向getHtml()函数传...
转载 2015-09-24 16:36:00
124阅读
2评论
import urllib.request from bs4 import BeautifulSoup import re def validateTitle(title): rstr = r"[\/\\\:\*\?\"\\|]" # '/ \ : * ? " |' new_title = re.sub(rstr, "_", title) # 替换为下划线 re...
转载 2018-01-22 17:25:00
261阅读
2评论
提取百度无水印图片
原创 2014-02-22 13:53:51
2069阅读
  最近,我们这边需要做一次防爬虫和机器蜘蛛的困扰,感觉困惑,有点无从入手,倒不如,直接用Python来写一个Spiner理解其各种原理,再下手也不迟啊,于是便立刻去写一个爬虫程序。使用方法:新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。程序功能:将中楼主发布的内容打包txt存储到本地。好,不废话,直接上代码:#!/usr/bin/python #-*-&nb
原创 精选 2016-06-24 13:20:08
1285阅读
1点赞
  • 1
  • 2
  • 3
  • 4
  • 5