编码格式

之前有写过一篇字符编码的笔记:python笔记——字符编码。这次主要是总结编码与python文件操作的关系。
1、中文文件改为gbk编码可以减少文件对磁盘的占用空间
2、UTF-8可以看作是Unicode的一个实现,在python中的区别主要是:

  • python的解释器使用的是Unicode(内存)
  • 模块(.py文件)在磁盘上使用的是UTF-8存储(外存)

3、当然可以在模块最上方修改它的编码格式,例如改为gbk。(改为gbk后发现编码格式变为ANSI,别担心,它跟GBK这些中文编码是一样的)

#encoding = gbk

python 处理gbk文件 python读取gbk编码文件_python 处理gbk文件

文件的操作

文件的读写原理

1、.py文件的运行原理:

首先.py文件由解释器运行,运行过程中会调用操作系统os中的一些资源,以操作硬盘上的文件(读写操作)。

python 处理gbk文件 python读取gbk编码文件_os模块_02

2、读写文件的操作步骤:
使用python操作文件,首先需要打开或新建文件,然后对文件进行读/写操作。当所有操作完成后,就关闭资源(比如执行.py文件中的代码时所调用的操作系统资源)。

文件的读写操作

1、内置函数open()创建文件对象/打开一个文件。

函数open()返回的实际上是文件在程序当中一个真实的映射对象,这个对象就对应磁盘上的文件,通过IO流将磁盘文件中的内容与程序中的对象中的内容进行同步。

python 处理gbk文件 python读取gbk编码文件_python_03


2、语法规则

python 处理gbk文件 python读取gbk编码文件_python_04


3、常用的文件打开模式

文件的类型——按文件中数据的组织形式,文件分为以下两大类

  • 文本文件:存储的是普通“字符”文本,默认为unicode字符集,可以使用记事本打开
  • 二进制文件:把数据内容用“字节”进行存储,无法用记事本打开,必须使用专用的软件打开,举例:mp3音频文件,jpg图片,.doc文档等

打开模式

描述

r

以只读模式打开文件,文件的指针将会放在文件的开头

w

以只写模式打开文件,如果文件不存在则创建,如果文件存在,则覆盖原有内容,文件指针在文件的开头

a

以追加模式打开文件,如果文件不存在则创建,文件指针在文件开头,如果文件存在,则在文件末尾追加内容,文件指针在原文件末尾

b

以二进制方式打开文件,不能单独使用,需要与其他模式一起使用,如rb或者wb

+

以读写方式打开文件,不能单独使用,需要与其它模式一起使用,如a+

4、文件对象的常用方法

方法名

说明

read([size])

从文件中读取size个字节或字符的内容并返回。若省略[size],则读取到文件末尾,即一次读取文件所有内容

readline()

从文本文件中读取一行内容

readlines()

把文本文件中每一行都作为独立的字符串对象,并将这些对象放入列表返回

write(str)

将字符串str的内容写入文件

writelines(s_list)

将字符串列表s_list写入文本文件,不添加换行符

seek(offset [, whence])

以字节为单位,把文件指针移动到新的位置,offset表示相对于whence的位置。offset:为正则往结束方向移动,为负则往开始方向移动。whence不同的值代表不同含义:0:从文件头开始计算(默认值);1:从当前位置开始计算;2:从文件尾开始计算

tell()

返回文件指针的当前位置,位置从0开始计算

flush()

把缓冲区的内容写入文件,但不关闭文件

close()

把缓冲区的内容写入文件,同时关闭文件,释放文件对象的相关资源

with语句(上下文管理器)

with语句可以自动管理上下文资源,不论程序以什么原因跳出with块,都能确保文件正确的关闭,以此来达到释放资源的目的(防止忘了关闭资源)。

语法规则

with语句的语法规则如下图所示,其中上下文管理器可以这样理解:若一个类对象实现了特殊方法__enter__(),__exit__(),则称该类对象遵守了上下文管理协议,该类对象的实例对象就称为上下文管理器。

open(‘logo.png’,‘rb’)返回的的对象就是上下文管理器,同时创建一个运行时上下文,去自动调用__enter__()方法,并将返回值赋给src_file。之后无论以何种方式离开运行时上下文(也就是跳出with语句体)都会自动调用上下文管理器的特殊方法__exit__()以释放资源。

python 处理gbk文件 python读取gbk编码文件_python_05


有了with语句,我们只需三行代码就能实现文件的复制:

with open('logo.png','rb') as src_file:
	with open('copylogo.png','wb') as target_file:
		target_file.write(src_file.read())

os模块

1、os模块是Python内置的与操作系统功能和文件系统相关的模块,该模块中的语句的执行结果通常与操作系统有关,在不同的操作系统上运行,得到的结果可能不一样。
2、可以用os模块打开系统应用或可执行文件。

#打开系统应用或可执行文件
import os
#打开系统应用
os.system('notepad.exe')    #打开记事本
os.system('calc.exe')    #打开计算器
#直接调用可执行文件
os.startfile('可执行文件的绝对地址')    #打开可执行文件

3、可以用os模块与os.path对目录或文件进行操作。

  • os模块的常用函数

函数

说明

getcwd()

返回当前的工作目录

listdir(path)

返回指定路径下的文件和目录信息

mkdir(path[, mode])

创建目录

makedirs(path1/path2…[, mode])

创建多级目录

rmdir(path)

删除目录

removedirs(path1/path2…)

删除多级目录

chdir(path)

将path设置为当前工作目录

walk(path)

返回当前目录及其子目录(包括子目录的子目录的子目录…)的所有文件

#os.walk代码实例
import os
path = os.getcwd()
lst_files = os.walk(path)
for dirpath,dirname,filename in lst_files:
	'''print(dirpath)
	print(dirname)
	print(filename)'''
	for dir in dirname:
		print(os.path.join(dirpath,dir))
	for file in filename:
		print(os.path.join(dirpath,dir))
	print('————————————————————————————————————')
  • os.path模块的常用函数

函数

说明

abspath(path)

用于获取文件或目录的绝对路径

exists(path)

用于判断文件或目录是否存在,如果存在返回True,否则返回False

join(path, name)

将目录与目录或者文件名拼接起来

split()

分离目录名和文件名

splitext()

分离文件名和扩展名

basename(path)

从一个目录中提取文件名

dirname(path)

从一个路径中提取文件路径,不包括文件名

isdir(path)

用于判断是否为路径