这将会是一系列的文章,整理自己之前学习爬虫的各个模块,只是粗略的过一下,介绍部分简单实例。从接触python爬虫到现在,基本上用过了所有常用的解析库。lxml,BeautifulSoup,pyquery。当然了,还有re。个人认为前端基础比较扎实的,用pyquery是最方便的,当然了,beautifulsoup也不错,re速度比较快,但是写正则比较麻烦。lxml的速度也是相对较快的,建议使用。当然
转载 2023-05-26 18:45:59
139阅读
python的XML模块 目录构建XML文件解析XML文件修改XML文件    构建XML文件 介绍 xml即可扩展标记语言,它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。从结构上,很像HTML超文本标记语言。但他们被设计的目的是不同的,超文本标记语言被设计用来显示数据,其焦 点是数据的外观。它被设计
转载 2024-06-09 07:34:35
35阅读
Python’s interfaces for processing XML are grouped in the xml package.带分隔符的文件仅有两维的数据:行和列。如果你想在程序之间交换数据结构,需要一种方法把层次结构、序列、集合和其他的结构编码成文本。XML是最突出的处理这种转换的标记(markup)格式,它使用标签(tag)分个数据,如下面的实例文件menu.xml所示:安生's
python实现XML解析的三种方法三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合;二是xml.sax.*模块,它是SAX API的实现,这个模块牺牲了便捷性来换取速度和内存占用,SAX是一个基于事件的API,这就意味着它可以“在空中”处理庞大数量的的文档,不用完全加载进内存;三是xml.etree.ElementTree模块(简称
转载 2024-08-12 10:16:24
173阅读
SMTP (Simple Mail Transfer Protocol)  邮件传送代理 (Mail Transfer Agent,MTA) 程序使用SMTP协议来发送电邮到接收者的邮件服务器。SMTP协议只能用来发送邮件,不能用来接收邮件。大多数的邮件发送服务器 (Outgoing Mail Server) 都是使用SMTP协议。SMTP协议的默认TCP端口号是25。  SMTP协议的一个重要特
转载 10月前
127阅读
 什么时模块    Python中的模块其实就是XXX.py 文件模块分类    Python内置模块(标准库)    自定义模块    第三方模块使用方法   import 模块名   form 模块名 import 方法名   说明:实际就是运行了一遍XX.py 文件导入模块也可以取别名   如: import time as timport time as t print(t.ti
Python 中的 docx 模块本文介绍了 Python 中的 docx 模块,该模块可以用来创建、修改和读取 Microsoft Word 文档(.docx 文件)。本文包括以下内容:什么是 docx 模块安装 docx 模块创建 Word 文档读取 Word 文档修改和保存 Word 文档总结和参考目录什么是 docx 模块安装 docx 模块创建 Word 文档读取 Word 文档修改和保
转载 2023-11-07 06:41:57
205阅读
12第一种方式,自动遍历所有节点:#!/usr/bin/env python# -*- coding: utf-8 -*-from xml.sax.handler import ContentHandlerfContentHandler): def __
原创 2022-12-20 10:56:03
111阅读
第2章 Python程序实例解析2.1 实例1:温度转换温度体系温度刻画存在不同体系,摄氏度C以1标准大气压下水的结冰点为0度,沸点为100度,将温度进行等分刻画。华氏度F以1标准大气压下水的结冰点为32度,沸点为212度,将温度进行等分刻画。转换公式如下:2.2 Python语法元素分析2.2.3 命名与保留字标识符命名规则:标识符由大小写字母、数字、下划线、汉字组成变量名不能以数字开头变量名是
在数据处理和文档自动化的领域,使用Python解析Word文档无疑是一个常见的需求。这个过程能够帮助我们自动生成报告、处理数据以及创建文档等。在这篇博文中,我将详细分享如何配置环境、编译过程、调优参数、定制开发以及最终的部署方案,顺便提供一些可视化的图表来帮助理解。 ### 环境配置 首先,我们需要配置好Python的开发环境及相关依赖。下图展示了环境配置的主要流程。 ```mermaid
原创 7月前
24阅读
python解析elf模块可以帮助我们更好地理解和解析可执行文件,在虚拟机和嵌入式系统开发中具有重要的应用场景。在这篇博文中,我将带你深入探讨这个过程,分析其背景、演进历程、架构设计、性能攻坚、故障复盘和扩展应用。 在业务场景中,随着技术的发展和应用的丰富,我们面临越来越复杂的ELF文件格式。这种格式不仅用于Linux等操作系统的可执行文件,也广泛应用于各种硬件平台和嵌入式设备。我们的业务规模急
原创 7月前
34阅读
Python的标准库中,提供了6种可以用于处理XML的包。(1)xml.domxml.dom实现的是W3C制定的DOM API。如果你习惯于使用DOM API或者有人要求这这样做,可以使用这个包。不过要注意,在这个包中,还提供了几个不同的模块,各自的性能有所区别。DOM解析器在任何处理开始之前,必须把基于XML文件生成的树状数据放在内存,所以DOM解析器的内存使用量完全根据输入资料的大小。(2)x
一、ConfigParser简介ConfigParser 是用来读取配置文件的包。配置文件的格式如下:中括号“[ ]”内包含的为section
原创 2023-01-10 00:00:59
56阅读
一个ini文件由多个段section组成,每个段的名字都是自定义的,每个段section中以key=vlaue的形式组成。
原创 2023-05-16 00:02:05
122阅读
首先列一下,sellect、poll、epoll三者的区别 select select最早于1983年出现在4.2BSD中,它通过一个select()系统调用来监视多个文件描述符的数组,当select()返回后,该数组中就绪的文件描述符便会被内核修改标志位,使得进程可以获得这些文件描述符从而进行后续的读写操作。select目前几乎在所有的平台上支持,其良好跨平台支持也是它的一个
这个就比较简单了没有什么好强调的,如果返回的json 就是直接按照键值取,如果是网页就是用lxml模块的html进行xpath解析
转载 2018-06-12 21:23:00
179阅读
2评论
配置文件内容:[plain] view plain copy[db]  db_host=127.0.0.1  db_port=3306  db_user=root  db_pass=password  [concurrent]  thread=10  processor=20  如果遵循以上格式,那么就可以用pytho
原创 2016-05-26 08:53:32
941阅读
模块$ pydoc -g 查看python标准库中的模块 模块 一个.py文件就是个模块 导入模块(a.py) import a python 将“.py”当作模块文件名的结束标志,所以,用import导入模块时,不加.py扩展名 模块属性 .py文件中定义的变量叫做模块的属性Attribute 文件 文件操作: 对文件的操作需要有,打开->处理->关闭 这三个过程
python模块数据是哪里来的,首先需要知道的是Python是怎么找到这个包模块的,然后再深入了解命名空间的概念,就能知道python模块数据是哪里来的了。搜索路径当你导入一个模块Python 解析器对模块位置的搜索顺序是:1、当前目录2、如果不在当前目录,Python 则搜索在 shell 变量 PYTHONPATH 下的每个目录。3、如果都找不到,Python会察看默认路径。UNIX下,
一、模块(module)浏览程序目录会发现一个__pycache__目录,内部保存着.pyc文件(其中的c是compiled编译),这个文件是由python解释器将模块的源码转换为字节码后生成的,可优化程序的启动速度python在解释源程序时是分两步走的:处理源代码,编译生成一个二进制字节码对字节码进行处理,生成机器码有了模块的字节码后,下一次运行程序时,若上次保存字节码之后没有修改过源代码,py
  • 1
  • 2
  • 3
  • 4
  • 5