环境:python3类库:BeautifulSoup原理就是伪装正常http请求,正常访问网页。然后通过bs4重新解析html结构来提取有效数据。1. config文件包含了伪装请求头部,数据源配置(如果不考虑扩展其他数据源,可以写死)。#!/usr/bin/python #coding:utf-8 import sys reload(sys) sys.setdefaultencoding('ut
: https://www.bqg8.cc/
原创 2021-07-26 17:00:15
446阅读
 爬取小说(搜索+爬取)首先看看最终效果(gif):实现步骤:1.探查网站“http://www.xbiquge.la/”,看看网站的实现原理。     2.编写搜索功能(获取每本书目录的URL)。     3.编写写入功能(按章节写入文件)。     4.完善代码(修修bug,建了文件夹)。ps:所需模块 1 import requests 2 import
转载 2023-07-05 22:21:41
0阅读
1、请求网页2、获取html文件获取文本内容后,中文部分全是乱码,需进行解码# 导入包 import requests url = "http://www.shuquge.com/txt/514/363448.html" reponse = requests.get(url) print (reponse.text)3、解码#解码 reponse.encoding = reponse.appare
 惊雷,闪电;天崩,地陷;狂涛,骇浪;气冲霄汉。一仿佛战争就发生在昨天,仿佛两军正厮杀在眼前,剑锋还滴着敌人的鲜血,鬓角仍染着边塞的烽烟。一张张似曾相识的面孔,一件件依旧陌生的衣衫。扫六合排山倒海的战阵,霸中原摧枯拉朽的军团。那曾经独步世界的超霸,那曾经辉煌文明的开端;那曾经所向披靡的王师,那曾经一统天下的典
原创 2021-07-13 16:41:18
237阅读
  最近在学习 Python,觉得爬虫很好玩,今天我准备爬取我看了至少三遍的小说《雪中悍刀行》,作者是烽火戏诸侯,他的小说很有才华,有着很多的粉丝,但他很多部小说都处于断更状态,因此人称大内总管。  我准备爬取小说的网站是新笔,这里一个盗版网站,是名门正派的眼中钉,不过对于我这种不想交钱看小说的人,没资格评论它,这个网站连载的小说更新的还是比较快的,内容都是和正版的内容一模一样。好了,废话不多
转载 2023-07-04 19:39:50
0阅读
小说,xpath
原创 2022-11-20 10:36:50
783阅读
import re from time import sleep from lxml import etree from selenium import webdriver options = webdriver.ChromeOptions() #options.add_argument('--he
转载 2020-03-21 18:25:00
318阅读
2评论
  引子 惊雷,闪电;天崩,地陷;狂涛,骇浪;气冲,霄汉。 壹 仿佛战争就发生在昨天,仿佛两军正厮杀在眼前,剑锋还滴着敌人的鲜血,鬓角仍染着边塞的烽烟。一张张似曾相识的面孔,一件件依旧陌生的衣衫。扫六合排山倒海的战阵,霸中原摧枯拉朽的军团。 贰 那曾经独步世界的超霸,那曾经辉煌文明的开端;那曾经所向披靡的王师,那曾经一统天下的典范;那曾经伟大发明的源头,那曾经沙漠清冽的甘
转载 精选 2011-12-22 22:40:13
735阅读
python入门知识点学习笔记(一)python解释器CPythonIPython其他解释器IDEPyCharm注释# 单行注释 """ 多行 注释 """ ''' 多行注释 '''变量变量的作用变量就是一个存储数据的时候当前数据所在的内存地址的名字定义变量变量名 = 值认识数据类型(type()方法返回数据类型)数值int 整型float 浮点型布尔型True 真False 假str 字符串l
第一次更新:发现一个问题,就是有时候网页排版有问题的话容易下载到多余章节,如下图所示:   解决办法:    于是在写入内容前加了一个章节判断,让内容获取从第一章开始,这样就能避免此类问题。如下图:     这个是对最近学习的一次总结吧。前两天写的,今天才有时间写博客。   偶然点开笔的网址(https://www.biquge.cc/),突然
代码来源:Python爬取小说,有趣又实用 学习了基础的语法,然后网上看到有人分享利用python爬取小说,自己拷贝了代码尝试了一下。 1. 环境准备 安装 BeautifulSoup4 和 lxml & C:/Python39/python.exe -m pip install --user
原创 2021-07-25 11:02:05
214阅读
 不期然的,看了《新大秦帝国》这个电视剧,平素对国产的电视剧不感兴趣,只是对春秋战国那个时代有些未明的感觉,正巧看到这个电视剧在讲那段历史,于是就翻开了这一页,这才知道,原来这部电视剧是从《大秦帝国》六部中的第一部《黑色裂变》改编过来的,从秦献公时期的秦魏之战娓娓道来,很自然的就到了秦孝公登上那个历史的转折点,携手卫鞅谱写出了那个让中国能成其为中国的伟大的秦帝国。 电视剧只让卫鞅和秦孝
原创 2012-11-25 14:29:37
431阅读
xpath爬取小说
原创 2022-12-11 14:27:11
375阅读
少年,你渴望力量吗?
原创 2022-12-28 17:11:46
828阅读
希望你看的时候,这个网站还在……
原创 7月前
0阅读
这是一个练习作品。用python脚本爬取上面的免费小说。环境:python3类库:BeautifulSoup数据源:http://www.biqukan.cc原理就是伪装正常http请求,正常访问网页。然后通过bs4重新解析html结构来提取有效数据。1.config文件包含了伪装请求头部,数据源配置(如果不考虑扩展其他数据源,可以写死)。#!/usr/bin/python#coding:u
原创 2019-01-20 23:12:56
3413阅读
Author:FinalBSD之前讲Etag的时候都只是对断点续传做了最简单的说明,没有深入研究。今天研究了一会,希望可以回答Laurence的问题,呵呵:)1.断点续传概念断点续传的理解可以分为两部分:一部分是断点,一部分是续传。    断点的由来是在下载过程中,将一个下载文件分成了多个部分,同时进行多个部分一起的下载,当某个时间点,任务被暂停了,此时下载
一. 数据来源分析 1. 确定需求 爬取小说内容 (一本) 进行搜索功能 (当输入一本小说名字或者作者选择下载相应的小说内容) 2. 数据来源分析 . 代码实现过程 1. 发送请求 对小说章节列表页发送请求 2. 获取数据 获取网页源代码 (响应体的文本数据response.txt) 3. 解析数据 提取小说名字 / url地址 4. 发送请求 对小说章节url地址发送请求 5. 获取数据 获取网页源代码 (
原创 精选 2022-08-16 13:20:01
2666阅读
《治秦九论》是大秦帝国中商鞅谋划的变法大纲。《史记》中,对商鞅变法也有描述,就一段话,很不详细。治秦九论其一《田论》,立定废井田、开阡陌、田可买卖之法令。其《赋税论》,抛弃贡物无定数的旧税制,使农按田亩、工按作坊、商按交易纳税之新法。如此则民富国亦富。其三《农爵论》,农人力耕致富,并多缴粮税者,可获国家爵位。此举将真正激发农人勤奋耕耘,为根本的聚粮之道。其四《军功论》,凡战阵斩首者,以斩获首级数
原创 2023-03-24 06:54:11
173阅读
  • 1
  • 2
  • 3
  • 4
  • 5