爬虫的简单介绍。”爬虫,即spider,是一种按一定规则,自动从网络上抓取并提取特定信息的程序或者脚本。互联网络,浩瀚无际,页面纷繁,包罗万象,直接导致信息的过载,人...
原创 2021-07-09 10:35:56
310阅读
模块概述 在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护。 为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,很多编程语言都采用这种组织代码的方式。在Python中,一个.py文件就称之为一个模块(Mo
原创 2022-05-27 21:58:48
245阅读
要让Python程序实现多进程(multiprocessing),我们先了解操作系统的相关知识。 Unix/Linux操作系统提供了一个fork()系统调用,它非常特殊。普通的函数调用,调用一次,返回一次,但是fork()调用一次,返回两次,因为操作系统自动把当前进程(称为父进程)复制了一份(称为子
原创 2022-05-27 22:04:56
137阅读
1.调用函数 Python内置了很多有用的函数,我们可以直接调用。 要调用一个函数,需要知道函数的名称和参数,比如求绝对值的函数abs,只有一个参数。可以直接从Python的官方网站查看文档: http://docs.python.org/3/library/functions.html#abs 也
原创 2022-05-27 22:00:24
161阅读
1.切片 取一个list或tuple的部分元素是非常常见的操作。比如,一个list如下: >>> L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack'] 取前3个元素,应该怎么做? 笨办法: >>> [L[0], L[1], L[2]] ['Michael'
原创 2022-05-27 21:59:54
126阅读
1.函数的参数 定义函数的时候,我们把参数的名字和位置确定下来,函数的接口定义就完成了。对于函数的调用者来说,只需要知道如何传递正确的参数,以及函数将返回什么样的值就够了,函数内部的复杂逻辑被封装起来,调用者无需了解。 Python的函数定义非常简单,但灵活度却非常大。除了正常定义的必选参数外,还可
转载 2022-05-27 22:00:09
206阅读
1.文件读写 读写文件是最常见的IO操作。Python内置了读写文件的函数,用法和C是兼容的。 读写文件前,我们先必须了解一下,在磁盘上读写文件的功能都是由操作系统提供的,现代操作系统不允许普通的程序直接操作磁盘,所以,读写文件就是请求操作系统打开一个文件对象(通常称为文件描述符),然后,通过操作系
原创 2022-05-27 22:05:54
202阅读
1点赞
1.TCP/IP简介 虽然大家现在对互联网很熟悉,但是计算机网络的出现比互联网要早很多。 计算机为了联网,就必须规定通信协议,早期的计算机网络,都是由各厂商自己规定一套协议,IBM、Apple和Microsoft都有各自的网络协议,互不兼容,这就好比一群人有的说英语,有的说中文,有的说德语,说同一种
原创 2022-05-27 22:11:09
375阅读
Python爬虫----爬虫基础目录: 一、网络爬虫      1.什么是爬虫      2.爬虫的分类     
原创 2022-08-12 16:36:17
1040阅读
一、爬虫技术概述爬虫,即网络爬虫,是通过递归访问网络资源,抓取信息的技术。   互联网中也有大量的有价值的信息数据,手动下载效率非常低下,爬虫就是自动化爬取下载这些有价值的信息的技术。   互联网中的页面往往不是独立存在的,而是通过超链接连接成了一个网络,爬虫程序就像一只蜘蛛一样,通过访问超链接在这张网络中移动 ,并下载需要的信息,理论上可以将爬取到整个互联网的绝大部分数据。 爬虫技术最开始来源于
转载 2023-07-30 12:49:00
338阅读
1点赞
进程和线程概述 很多同学都听说过,现代操作系统比如Mac OS X,UNIX,Linux,Windows等,都是支持“多任务”的操作系统。 什么叫“多任务”呢?简单地说,就是操作系统可以同时运行多个任务。打个比方,你一边在用浏览器上网,一边在听MP3,一边在用Word赶作业,这就是多任务,至少同时有
原创 2022-05-27 22:05:05
89阅读
1.Web开发概述 最早的软件都是运行在大型机上的,软件使用者通过“哑终端”登陆到大型机上去运行软件。后来随着PC机的兴起,软件开始主要运行在桌面上,而数据库这样的软件运行在服务器端,这种Client/Server模式简称CS架构。 随着互联网的兴起,人们发现,CS架构不适合Web,最大的原因是We
原创 2022-05-27 22:10:15
320阅读
本课程参考Python爬虫技术五天速成(https://www.bilibili.com/video/BV12E411A7ZQ?p=2) 更多细节内容可以参考廖雪峰老师事官方网站(https://www.liaoxuefeng.com/wiki/1016959663602400/1016959735
原创 2022-05-27 22:06:55
118阅读
1.使用Web框架 了解了WSGI框架,我们发现:其实一个Web App,就是写一个WSGI的处理函数,针对每个HTTP请求进行响应。 但是如何处理HTTP请求不是问题,问题是如何处理100个不同的URL。 每一个URL可以对应GET和POST请求,当然还有PUT、DELETE等请求,但是我们通常只
原创 2022-05-27 22:09:51
106阅读
1.asyncio asyncio是Python 3.4版本引入的标准库,直接内置了对异步IO的支持。 asyncio的编程模型就是一个消息循环。我们从asyncio模块中直接获取一个EventLoop的引用,然后把需要执行的协程扔到EventLoop中执行,就实现了异步IO。 用asyncio实现
原创 2022-05-27 22:09:59
162阅读
1.WSGI接口 了解了HTTP协议和HTML文档,我们其实就明白了一个Web应用的本质就是: 浏览器发送一个HTTP请求; 服务器收到请求,生成一个HTML文档; 服务器把HTML文档作为HTTP响应的Body发送给浏览器; 浏览器收到HTTP响应,从HTTP Body取出HTML文档并显示。 所
原创 2022-05-27 22:10:23
225阅读
1.电子邮件概述 Email的历史比Web还要久远,直到现在,Email也是互联网上应用非常广泛的服务。 几乎所有的编程语言都支持发送和接收电子邮件,但是,先等等,在我们开始编写代码之前,有必要搞清楚电子邮件是如何在互联网上运作的。 我们来看看传统邮件是如何运作的。假设你现在在北京,要给一个香港的朋
原创 2022-05-27 22:11:00
2479阅读
1.概述 Python支持多种图形界面的第三方库,包括: Tk wxWidgets Qt GTK 等等。 但是Python自带的库是支持Tk的Tkinter,使用Tkinter,无需安装任何包,就可以直接使用。本章简单介绍如何使用Tkinter进行GUI编程。 Tkinter 我们来梳理一下概念:
原创 2022-05-27 22:11:48
620阅读
1 最简单的单页面抓取思路:获取页面所有url对获取的所有url进行分类A 获取属于本域名下的urlB 获取属于其他url2 用到的模块urllibbs4re正则表达式五年Python爬虫程序员整理的全栈爬虫知识点学习Python中的小伙伴,需要学习资料的话,可以到我的微信公众号:Python学习知识圈,后台回复:“01”,即可拿Python学习资料3 代码说明: import urllib
在作者学习的众多编程技能中,爬虫技能无疑是最让作者着迷的。与自己闭关造轮子不同,爬虫的感觉是与别人博弈,一个在不停的构建 反爬虫 规则,一个在不停的破译规则。 如何入门爬虫?零基础如何学爬虫技术?那前提肯定会是需要学习一门 简单易入门 的编程语言了,就作者而言, 无疑是最合适的!到2014年7月为止
原创 2022-08-10 18:06:05
146阅读
  • 1
  • 2
  • 3
  • 4
  • 5