一、什么是编码编码是指信息从一种形式或格式转换为另一种形式或格式的过程。在计算机中,编码,简而言之,就是将人能够读懂的信息(通常称为明文)转换为计算机能够读懂的信息。众所周知,计算机能够读懂的是高低电平,也就是二进制位(0,1组合)。而解码,就是指将计算机的能够读懂的信息转换为人能够读懂的信息。二、 编码的发展渊源之前的博客中已经提过,由于计算机最早在美国发明和使用,所以一开始人们使用的是ASCI
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址。刚开始学习python希望可以获得宝贵的意见。先来简单介绍一下,网络爬虫的基本实现原理吧。一个爬虫首先要给它一个起点,所以需要精心选取一些URL作为起点,然后我们的爬虫从这些起点出发,抓取并解析所抓取到的页面,将所需要的信息提取出来,同时获得的新的URL插入到队列中作为下一次爬取的起点。这样不断地循环
转载
2024-06-03 09:39:15
67阅读
Python学习很简单,只是你走进了误区。为什么你一定要先掌握枯燥的基础点后,再去做实际操作呢?其实,你根本坚持不了那么长时间,但实际上你可以直接去做python项目。不信?看看我做这个项目的思路,很简单。这个项目是用python抓取你想要的电影:第一步,我要打开抓取的电影排行榜,并且进入到界面查看电影名字和主演名字。第二步,鼠标放到电影名字上,点击右键检查。第三步,从抓包工具可以看到里面的内容。
转载
2023-09-15 20:37:08
124阅读
百般无聊中想和朋友看个电影,不知道看什么,那就看评分高的吧,上次爬取豆瓣电影top250看到评分第一的是《申肖克的救赎》,倒想看看什么样的神作能得到9.6分,因为有腾讯会员于是去了腾讯视频,并没有找到。清晰度不错,就它了,但是看一下卡很久,应该是没有cdn加速,原始速度没法看。于是想着下载下来再看吧,于是右键审查元素,查看网页源代码,并没有如愿找到资源直链。于是查看网页的请求信息,企图的到点线索,
转载
2024-05-30 09:22:27
111阅读
首先我们开始要分析一下,下载种子我们需要哪几步:获取所有电影页的访问地址获取电影页源码提取出下载地址将下载地址保存首先第一步,我们来分析一下电影天堂网站的结构,发现他跟我们的古诗文网还是非常类似的,全站静网结构,不需要登录,页面有全新的地址,这对于初学来讲是非常容易上手的;接下来我们以国内电影为例,先把所有电影详情页的地址获取到:我们发现我们需要的地址<a href="***" class=
转载
2023-05-31 09:04:22
206阅读
首先,写爬虫的时候大致有以下四个内容需要考虑:1、url地址的获取: ①要是知道url地址的规律和总体页码数情况,我们可以较容易的构造处url地址的列表; ②当我们不知道url地址的一些规律时,就需要先构造一个start_url来获取初始地址,然后再请求,再生成。2、发送请求,获取响应(利用requests库)3、提取数据: ①返回的是json字符串(json.loads()转化为python对象
转载
2023-08-06 23:53:01
71阅读
Python学习很简单,只是你走进了误区。为什么你一定要先掌握枯燥的基础点后,再去做实际操作呢?其实,你根本坚持不了那么长时间,但实际上你可以直接去做python项目。
Python学习很简单,只是你走进了误区。为什么你一定要先掌握枯燥的基础点后,再去做实际操作呢?其实,你根本坚持不了那么长时间,但实际上你可以直接去做python项目。不信?看看我做这个
转载
2023-07-01 14:45:34
66阅读
前言作为本人的第一篇博客,不知道怎么写才好。同时作为一个编程的菜鸟,第一次分享自己的练习之作,希望能够通过写博客这种方式慢慢的提高自己的表述能力。 本人最近学习python,学习了基本的语法,就想着做点东西练练手,反正大家说起python第一反应都是爬虫,那我就做一个爬虫吧。 本人经常由于上豆瓣看各类电影的评分,从中选出自己想要看的电影,但是豆瓣提供的几种筛选方式都不能满足,所以打算做一个爬虫
转载
2023-12-04 18:49:53
29阅读
今天让我们一起彻底揭开py编码的真相,包括py2和py3。有同学可能问:以后py3是大势所趋,还有必要了解py2那令人头疼的编码吗?答案是太有必要啦。py2在生产中还是中流砥柱。什么是编码?基本概念很简单。首先,我们从一段信息即消息说起,消息以人类可以理解、易懂的表示存在。我打算将这种表示称为“明文”(plain text)。对于说英语的人,纸张上打印的或屏幕上显示的英文单词都算作明文。其次,我们
'''这是第解释文章:编码与解码
首先,明确一点,计算机中存储的信息都是二进制的编码/解码本质上是一种映射(对应关系),比如‘a’用ascii编码则是65,计算机中存储的就是00110101,但是显示的时候不能显示00110101,还是要显示'a',但计算机怎么知道00110101是'a'呢,这就需要解码,当选择用ascii解码时,当计算机读到00110101时就到对应的ascii表里一查发现是'
转载
2023-08-24 17:14:50
136阅读
python url解码url是数据的一个部分,一般会用来做什么呢?比如网站的 URL,比如搜索引擎中的 url,再比如网页中的图片等。 你也许不知道,在 Web页面中的图片、链接、超链接都是 URL,也就是 url。 而如果想要读取 URL,我们就需要将它解码出来,然后才能把它读出。现在网上有很多教程都可以教你如何解码 url。但事实上,在实际开发过程中,我们并不需要了解所有的代码知识。我们只需
转载
2023-10-12 19:14:32
246阅读
内容概要:一、文件操作二、字符编码解码三、函数介绍一、文件操作文件操作流程:打开文件,得到文件句柄并赋值给一个变量通过句柄对文件进行操作关闭文件基本操作:1 #/usr/bin/env python
2 #-*- coding:utf-8 -*-
3 #Author:W-D
4 f=open("test","r",encoding="utf-8")#打开文件,并告诉解释器以那种编码打开,编码不对会
转载
2024-01-18 18:31:48
89阅读
今天在做简单的Python爬虫时遇到了编码错误的问题,查找资料得到如下结论:报错的异常是
UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence此问题,还是很具有代表性的,此处,专门整理如下:【Python中如何处理UnicodeDecodeError和Un
转载
2023-10-11 09:38:47
151阅读
我们在写程序的时候经常遇到转码的问题,或者乱码的问题。这本文章就把经常遇到的ASCII,Unicode 和 UTF-8给大家梳理一下。一、ASCII 码ASCII(美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,对英语字符与二进制位之间的关系,它是现今最通用的单字节编码系统。ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础A
转载
2024-02-17 11:09:18
83阅读
requests中的编码解码
Python2的字符串有两种:str 和 unicode,Python3的字符串也有两种:str 和 bytes。Python2 的 str 相当于 Python3 的bytes,而unicode相当于Python3的str。Python2里面的str和unicode是可以混用的,在都是英文字母的时候str和un
转载
2023-08-23 20:36:54
561阅读
在代码中需要打印中文的时候容易出现乱码,下面简单提供几个思路去解决打印乱码的问题。(环境python2.7)乱码解码方法:(1)使用chardet的detect函数去检测:import timeimport chardetmystr=time.strftime('%Z')
print chardet.detect(mystr)
print mystr.decode('gbk') 结果: {'con
转载
2023-10-24 08:30:44
84阅读
【背景】 问题参见: python2.7 urllib2 抓取新浪乱码 中的: 报错的异常是 UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence 此问题,还是很具有代表性的,此处,专门整理如下: 【Python
转载
2024-02-06 21:23:08
92阅读
1、字符串的编码、解码编码:将计算机中的字符串按照一定的顺序表示成二进制数据的过程描述具体二进制:0/1 每一个二进制数字,表示一位,通常计算机中:0000 0001字节:二进制数据~8位一个字节:0000 0001->1个字节字符:2个字节->1个字符;通常情况下我们使用的字符串~就是使用字符编码的!各国字符编码都不一样: 1、计算机-> 表示[英文字母、数字、部分特殊符号]
转载
2023-08-30 09:02:17
91阅读
一、先说说编解码问题编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。Eg: str1.decode( 'gb2312' ) #将gb2312编码的字符串转换成unicode编码
str2.encode( 'gb2312' ) #将unicode编码的字符串转换成gb23
转载
2023-09-06 22:22:02
208阅读
前端时间做文本处理的时候,出现了很多编码解码的问题,总是在python中不知道怎么处理,啥时候需要解码,啥时候需要编码,有点懵逼,索性自己钻研一下吧!(*•ω•)声明:本文的撰写为作者记录自己学习所写,因此可能会出现错误。 主要参考了B站Python小镇的视频:https://www.bilibili.com/video/BV1gZ4y1x7p70.基础知识0.1 字符可见字符:英文字母、数字、标
转载
2023-12-19 21:49:49
65阅读