下午事情少,顺便把昨天的爬虫练习下,平时都看磊的技术博哥(干货比较多);就试试先写一个简单的爬虫,后期有机会再完善,做整站和多线程。1、观察爬取的URL:    通过观察我们发现,在首页部分包含有文章的标题列表,然后思路就是;通过这一页的url可以获取所有文章标题,再通过标题获取到文章的URL,在通过RUL下载: &n
原创 精选 2015-10-10 17:33:06
1648阅读
1点赞
2评论
身为一个有觉悟的渣渣,永远不会停止爬虫的瞎写(内卷)之路,很久没有coding了,so就有了下面这篇分享,一个博客爬虫,图片爬虫,我们都非常熟悉的新浪博客的图片爬虫,为了体现本渣渣的渣渣(弱智)水平,带来了一个异步版本,供大家参考学习,如果异步玩的6,请带带本渣渣! 异步代码是本渣渣抄袭的,不懂不要问本渣渣,因为本渣渣也不会。。。 目标网址:  http://blog.sina.com.cn/s/
原创 2021-07-27 16:51:58
597阅读
import requestsimport jsonfrom pprint import pprintfrom bs4 import BeautifulSoupurl = "https://www.cnblogs.com/AggSite/AggSitePostList"headers = { #"content-type": "application/json; charset=UTF-8",
原创 2022-10-12 19:22:13
182阅读
我希望从某些网站,把博客文章保存成本地的md文件,用python实现。不管你怎么想,反正我是成功了。
我希望对指定网页的,博客列表,获取url,然后保存成本地文件,用python实现 step1: import requests from bs4 import BeautifulSoup import json def get_blog_links(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT
原创 6月前
50阅读
我希望对指定网页的,博客列表,获取url,然后保存成本地文件,用python实现。
博客爬虫算法 我希望从某些网站,把博客文章保存成本地的md文件,用python实现 不管你怎么想,反正我是成功了 step1:C:\Users\wangrusheng\PycharmProjects\FastAPIProject1\hello.py import requests from bs4 import BeautifulSoup import html2text # 新增HTML转Ma
原创 6月前
21阅读
我的技术博客:http://9272317.blog.51cto.com/
原创 2016-09-15 10:24:49
544阅读
CSDN,博客园,51CTO,开源中国
转载 2020-11-07 16:20:41
205阅读
在这个板块中,我会分享关于数据建模、数据库优化和设计的最佳实践,并介绍如何在项目中使用不同的数据库系统
vue的vue-router的使用 技术概述 对于单页面应用来说,如果涉及到多个页面的话,就必须要使用到路由,一般使用官方支持的vue-router库。页面不会刷新,每个页面的数据包括组件的状态都会保留。 技术详述 一、安装和基本配置 从官网下载vue-router.js 新建一个index.htm ...
转载 2021-06-28 01:04:00
442阅读
2评论
上次写了一个爬世纪佳缘的爬虫之后,今天再接再厉又写了一个新浪博客爬虫。写完之后,我想了一会儿,要不要在博客园里面写个帖子记录一下,因为我觉得这份代码的含金量确实太低,有点炒冷饭的嫌疑,就是把上次的代码精简了一下,用在另外一个网站而已,而且爬别人的博客总有一种做贼心虚的感觉,怕被各位园友认为是偷窥狂魔。但是这份代码总归是我花了精力去写的,我也不想就此让它深藏在硬盘之中(电脑实在太老了,可能过两年硬
python实现博客爬虫有序的存到word中目标地址:https://www.kingname.info/archives/# -*- coding:utf-8 -*- from bs4 import BeautifulSoup import urllib.request, urllib.response, urllib.error, urllib.parse from docx import
转载 2024-05-07 14:59:33
38阅读
从其它地方看到的,收藏到这里来,可以经常看一下。 在 互联网世界里,博客网站的种类是多种多样的,有的旨在教导、帮助人们交流协作、激发灵感,并拓展我们的思维空间,而另一些博客则侧重于激发我们的情感,让 我们感到愤怒,或是让我们开怀大笑。《电脑世界(Computer world)》网站的编辑们把这些优秀博客网站搜集整理在了一起,为我们提供了一份最受他们所钟爱的博客网站的列表。 1. 生活骇客
转载 2023-07-26 17:11:49
83阅读
。。
原创 2022-07-31 00:44:32
39阅读
​针对爬虫首先声明只是玩具爬虫,拿到自己博客地址,然后随机访问,最后增加T...
原创 2023-05-01 20:43:20
294阅读
博客实例: 爬取博客园文章列表,假设页面的URL是https://www.cnblogs.com/loaderman 要求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个博客里的标题,描述,链接地址,日期等 保存到 json 文件内 代码 效果:
原创 2021-08-13 09:33:57
109阅读
Python爬虫抓取csdn博客        昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用
转载 精选 2015-07-23 19:39:51
10000+阅读
       一直从事的JAVA的程序开发,感觉到技术交流的必要性,现在的网络世界瞬息万变,谁都不知道JAVA会在何时被新的更好的语言所替代,我们所能做的就是一刻也不敢放松的跟着这个IT大潮流,不停的去接受新事物,新名词,新工具....        也正因为如此,我们忙碌着,
原创 2008-09-13 20:57:35
487阅读
RxJava 是一个基于 ReactiveX 的 Java 实现,它是一种用于异步编程的工具。ReactiveX 是对传统异步编程方式的革命,它通过观察者模式、迭代器模式和函数式编程的结合,提供了一种更加简洁和高效的处理异步数据流的方式。在这篇博客中,我们将深入探讨 RxJava 的核心概念,并通过具体的代码示例来展示其强大功能。1. RxJava 简介RxJava 的核心思想是:通过观察者模式来
原创 8月前
135阅读
  • 1
  • 2
  • 3
  • 4
  • 5