初步学习选择了百度文库资料《网络爬虫-Python和数据分析》,下面就练习遇到的问题做如下总结:初始代码:import re import urllib2 import MySQLdb from BeautifulSoup import BeautifulSoup url1="://bbs.ustc.edu.cn/cgi/bbstdoc?board=PieBridge&star
转载 2023-07-10 17:58:39
107阅读
import reimport urllibdef getHtml(url): page=urllib.urlopen(url); html=page.read() return htmldef getImage(html): reg = r'src="(.*?\.jpg)"' imgre = re
转载 2016-12-05 17:07:00
90阅读
2评论
Python很简洁,也很强大,作为兴趣,值得一学!下面这个程序实现的是从一个网站上下载图片,根据自己需要可以进行修改 1 import re 2 import urllib 3 4 def gethtml(url): 5 page = urllib.urlopen(url) 6 html = page.read() 7 return html 8
转载 2023-05-31 10:30:24
7阅读
1、简介 在使用Python爬虫时,需要模拟发起网络请求,主要用到的库有requests库和python内置的urllib库,一般建议使用requests,它是对urllib的再次封装。 <font color=blue>urllib、urllib2、urllib3均能通过网络访问互联网上的资源文件。 urllib:Python2和Python3内置的网络请求库,Python3的ur
原创 2023-12-12 21:32:35
180阅读
1、简介 https://lxml.de/ LXML是功能最丰富的 和易于使用的库 用于处理 XML 和 HTML 在 Python 语言中。 lxml XML 工具包是 C 库 libxml2 和 libxslt 的 Pythonic 绑定。它的独特之处在于它结合了速度和 这些库的 XML 功能完整性与 原生 Python API,大部分兼容,但优于众所周知的 ElementTree API
原创 2024-03-05 09:57:39
183阅读
1、简介 在使用Python爬虫时,需要模拟发起网络请求,主要用到的库有requests库和python内置的urllib库,一般建议使用requests,它是对urllib的再次封装。 2、代码示例 2.1 urlib 获取网页(1) 将 url 对应的网页下载到本地 # -*- coding: UTF-8 -*- import urllib.request def get_html(url)
原创 2023-12-13 22:13:10
195阅读
1、简介 https://lxml.de/ LXML是功能最丰富的 和易于使用的库 用于处理 XML 和 HTML 在 Python 语言中。 2、代码测试 2.1 lxml解析网页 使用xpath获取所有段落的文本 # -*- coding: UTF-8 -*- from lxml import etree def fetch_text(html): html = etree.HT
原创 精选 2024-03-07 22:13:34
208阅读
python 获取页面最最简单请往下看:import urllibimport webbrowser(利用webbrowser打开默认浏览器访问)定义urlurl="http://www.163.com" 利用urllib获取urlcontent=urllib.urlopen(url).read()将网页内容保存至本地为test.htmlopen("test.html","w").write(co
翻译 2017-04-20 10:02:44
857阅读
一个人无聊,写了个爬虫爬取不可描述图片.... 代码太短,就暂时先往这里贴一下做备份吧。 注:这是很严肃的技术研究,当然爬下来的图片我会带着批判性的眼光审查一遍的.... :) #! /usr/bin/python import chardet import urllib3 import uuid import os import logging import time import s...
原创 2021-07-27 14:03:07
265阅读
1.选择一个翻译页面,我选择的是有道词典(http://dict.youdao.com)2.随便输入一个英语单词进行翻译,然后查看源文件,找到翻译后的内容所在的位置,看它在什么标签里3.开始编写程序(1)首先引入requests库跟BeautifulSoup库(2)更改请求头,防止被页面发现是爬虫,可以在审查元素里找(3)确定URL,在有道是 http://dict.youdao.com/w/%s
# 使用Python实现程序爬虫 如果你是一名刚入行的小白,想要学习如何用Python实现程序的爬虫,本文将带你一步步走过这个过程。我们将从整体的流程入手,为你提供清晰的指导。 ## 实现流程概述 以下是实现爬虫的基本流程: | 步骤 | 描述 | |------|--------------------------| | 1 | 理解
原创 8月前
128阅读
# 如何实现一个简单的 Python 爬虫 在当今数据驱动的世界里,爬虫技术是获取和分析网页数据的重要工具。本文将指导你如何使用 Python 创建一个简单的爬虫程序。我们将逐步学习,并通过实例代码来理解每一步的功能。 ## 流程概述 在开始之前,首先我们需要明确爬虫的基本流程。这包括: | 步骤 | 描述
原创 2024-08-09 12:15:28
72阅读
Python 开发轻量级爬虫(imooc总结02--爬虫简介)爬虫简介 首先爬虫是什么?它是一段自动抓取互联网信息的程序。 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url,而url页面上又有很多指向其它页面的url,这些url之间相互指向的关系, 就形成了一个网状,这就是互联网。 正常情况下,我们使用人工的方式,从互联网上获取我们需要的感兴趣的信息。那有没有
爬虫概述知识点:了解 爬虫的概念了解 爬虫的作用了解 爬虫的分类掌握 爬虫的流比如:
原创 2022-10-14 11:35:57
133阅读
到底什么是爬虫呢?爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。爬虫能做很多事,能做商业分析,也能做生活助手,比如:分析北京近两年二手房成交均价是多少?深圳的Python工程师平均薪资是多少?北京哪家餐厅粤菜最好吃?等等。这是个人利用爬虫所做到的事情,而公司,同样可以且是超级爬虫
原创 2023-08-01 10:10:06
58阅读
初试爬虫
原创 2022-02-21 16:21:40
118阅读
初试爬虫
原创 2022-03-17 14:00:19
92阅读
 一、网络爬虫的一般作法       (1)基于Socket通信编写爬虫,这是相对最低层的方式,它可以完全控制Input/Output等,但对编程水平有很大考验,一般为了简单其鉴,多是基于第三方封装的网络包来做,而非直接基于socket编程。            ps: socket不是一种通信协议,而是一种实现上下层通信的通讯机制,它衔接着如上层http协议和下层tcp/ip协议的通信与...
原创 2023-05-12 01:58:09
156阅读
13.Gerapy学习目标了解 什么是Gerapy掌握 Gerapy的安装掌握 Gerapy配置启动掌握 通过Gerapy配置管理scrapy项目1.Gerapy介制爬虫运行更直
原创 2022-10-14 11:17:52
208阅读
一、首先想到的是for循环,单线程爬取每个url,但是如果有url出现了问题,后面的url就得等,性能低。 二、我们考虑线程池的问题,下面我们定义了线程池里面最多10个任务,也就是说最多同一时间只能有10个爬行任务,这样的话就是自己干自己的互相不影响,加上主线程的话是n+1个线程,缺点也很明显,耗时
原创 2021-05-14 20:14:50
264阅读
  • 1
  • 2
  • 3
  • 4
  • 5