1.在cmd中查看python关键字:
Import keyword
Keyword.kwlist
2.有关python运算符计算
3.关系运算符
4.字符串切片
5.字符串反转方法:
6.字符串替换
1.为什么说c语言指针节省空间?
用指针直接指向你的地址,就省去了检索的过程,在内存分配时,有时不一定就是顺序的,那么遍历内存的速度肯定没有直接找地址的速度快了。
2. 在计算机科学中,Shell俗称壳(用来区别于核),是指“为使用者提供操作界面”的软件(命令解析器)。它类似于DOS下的command.com和后来的cmd.exe。它接收用户命令,然后调用相应的应用程序。
https://baike.baidu.com/item/shell/99702?fr=aladdin
3.Linux能够全面调用计算机的功能接口,又可以像shell那样,可以轻松的编程。
4.Ctrl+d退出Linux环境下python编程
5.linux把设备映射成一个个文件来管理
爬虫技术基础了解:
用户输入网址,通过dns(Dns是本地域名解析服务器)找到主机,主机返回源代码,通过通过浏览器(源代码有很多超链接,爬虫爬来的这些内容,通过分析和过滤这些html代码,实现对图片文字的资源获取)将网页显示给用户
302临时重定向,301资源重定向
关键字:
1.url统一资源定位符,互联网上每个文件都有一个唯一的地址,包含文件的位置和浏览器如何处理它,格式三部分组成:第一部分:协议(也可称为服务方式)第二部分:存有该资源的主机IP地址(有时候也包括端口号)第三部分:主机资源具体地址,如目录和文件夹
顶级域名(根域名、一级域名)除了后缀以外只有一个点,http://baidu.com /http://baidu.com.cn
二级域名 http://MP3.baidu.com
三级域名 http://a.b.baidu.com
3.请求http://baidu.com直接跳转到www.baidu.com一般网站实现不了
这就叫Seo搜索引擎优化(百度seo做的最好)
4.爬虫的重要思想:一般来说网页上能看到的我们都能爬取,因此一些加密文件,比如付费资料,分析页面的数据是从简到繁,(先通过网页源代码直接获取,分析是否为ajax异步加载,数据是否被js加密)
5.爬虫模块以及使用方法:urllib和urllib2模块都做与请求url相关的操作,功能差异如下:
Urllib2:接受request对象,并且以此来设置一个url的headers,但是urllib只能接受一个url,不能伪装你的用户代理字符串
referer表示的是你点击的上一个网址,也就是检测你在浏览本网页之前进入了哪个网页
uer_Agent是作为辨别浏览器身份的,经常被恶搞或者伪装,因为一些http服务只允许某些请求来自常见的浏览器而不是脚本,或是针对不同的浏览器返回不同的脚本。
在urllib2这个库中接受的request中的headers,把headers中的user_Agent修改掉就可以访问一些原本用电脑打不开的网页
Post只能接受的参数类型:
运行程序,把字典转换成字符串
Get只能接受字符串
Urlopen函数中当data为空时就是get请求,data不为空就是post请求,timeout表示5秒以后还未响应就放弃这个请求
通过response来获取请求的html代码
Response实例化两种添加header字典元素的方法
Headers是字典类型,投资点可以作为参数在request时直接传入,也可以把每个键和值作为参数调用add_header()方法来添加
默认为python就不允许访问
Geturl方法返回的是真正的url,通常用来检查是不是重定向。如果爬取付费文件,比如下载优酷视频就是绝对地址,一开始请求返回的如果是一个动态的url最终会跳转到一个绝对地址,到绝对地址以后不会再进行权限验证(只有通过应用程序判断,否则服务器压力过大),因此当我们获得绝对地址的时候,我们可以把地址给任何人来打开资源文件
Getcode返回http状态代码,=200表示请求成功
6.开发者工具的打开:
谷歌浏览器ctrl+shift+i
IE浏览器ctrl+shift+i
7.cookie不是自带通行证(跟后端有关),保存以后登录信息
8.
9.jason包
10.登陆=请求 post
①请求url②请求方式(str)③参数(str,bytes)
XML:
<name id=”001”>张三</name> 是一个元素
<sex>boy</sex> 也是一个元素
id是属性节点,张三是文本节点
节点包括元素节点,属性节点,文本节点
元素一定是节点,但是节点不一定是元素
DOM方式解析XML原理:
SAX方式解析XML实例: