一、json模块 (重点)
之前我们学习过用eval内置方法可以将一个字符串转成python对象,不过,eval方法是有局限性的,对于普通的数据类型,json.loads和eval都能用。
但遇到特殊类型的时候,eval就不管用了,所以eval的重点还是通常用来执行一个字符串表达式,并返回表达式的值。
什么是序列化?
我们把对象(变量)从内存中变成可存储或传输的过程称之为序列化,在Python中叫pickling,在其他语言中也被称之为serialization,marshalling,flattening等等,都是一个意思。
序列化之后,就可以把序列化后的内容写入磁盘,或者通过网络传输到别的机器上。
反过来,把变量内容从序列化的对象重新读到内存里称之为反序列化,即unpickling。
json
如果我们要在不同的编程语言之间传递对象,就必须把对象序列化为标准格式,比如XML,但更好的方法是序列化为JSON,因为JSON表示出来就是一个字符串,可以被所有语言读取,也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式,并且比XML更快,而且可以直接在Web页面中读取,非常方便。
JSON表示的对象就是标准的 JavaScript 语言的对象,JSON和 Python内置的数据类型 对应如下:
对比,json.dump(data,filehandle) 和 json.dumps(data) 的区别
json.load(filehandle) 和 json.loads(data)
#----------------------------序列化
import json
dic={'name':'alvin','age':23,'sex':'male'}
print(type(dic))#<class 'dict'>
j=json.dumps(dic)
print(type(j))#<class 'str'>
f=open('序列化对象','w')
f.write(j) #-------------------等价于json.dump(dic,f)
f.close()
#-----------------------------反序列化<br>
import json
f=open('序列化对象')
data=json.loads(f.read())# 等价于data=json.load(f)
import json
dic={'name':'alex',"age":"18"}
#json.dumps(data) 将data处理为符合json规范的字符串 (例如: 所有单引号-->> 双引号)
res=json.dumps(dic) # {'name':'alex',"age":"18"} --->> {"name":"alex","age":"18"} --->> '{"name":"alex","age":"18"}'
print("json处理后的数据:",type(res),res) #<class 'str'> {"name": "alex", "age": "18"} #json会把源数据里的所有引号,都变成双引号,再转换成json字符串
#1.将json处理后的数据,写入文件a
# with open("a","w",encoding="utf-8") as f:
# f.write(res)
#2.从文件里读取,json数据
with open("a","r",encoding="utf-8") as f:
data=f.read()
print("从文件中读取json数据为:",type(data),data)
data2=json.loads(data) #json.loads(data) 将字符串转换为 对应的数据类型
print("从文件读取数据,再用json处理后为:",type(data2),data2)
#运行结果:
json处理后的数据: <class 'str'> {"name": "alex", "age": "18"}
从文件中读取json数据为: <class 'str'> {"name": "alex", "age": "18"}
从文件读取数据,再用json处理后为: <class 'dict'> {'name': 'alex', 'age': '18'}
对比上下 2种方式
import json
dic={'name':'alex',"age":"18"}
# 1.将数据,写入文件b (注意: 此处,写入文件时,是普通模式,非json数据) python默认将引号都变成单引号,再写入文件
with open("b","w",encoding="utf-8") as f:
f.write(str(dic))
#2.从文件里读取,json数据
with open("b","r",encoding="utf-8") as f:
data=f.read()
print("从文件中读取的数据为:",type(data),data)
data2=json.loads(data) #json.loads(data) 由于文件保存时,写入文件的数据不是json数据,所以,读取该文件数据,再用json的方法解析时,会出错
print("从文件读取数据,再用json处理后为:",type(data2),data2)
json.loads(data) 注意事项 无论数据是怎样创建的,只要满足json格式,就可以json.loads出来,不一定非要dumps的数据才能loads
import json
# 从文件里读取数据
with open("c","r",encoding="utf-8") as f: #文件c里的内容为(双引号): {"name":"Alex"}
data1=f.read()
print(type(data1),data1) # <class 'str'> {"name":"Alex"}
data2=json.loads(data1)
print(type(data2),data2) # <class 'dict'> {'name': 'Alex'}
# 从文件里读取数据
with open("d","r",encoding="utf-8") as f: #文件d里的内容为(单引号): {'name':'Alex'}
data3=f.read()
print(type(data3),data3) # <class 'str'> {'name':'Alex'}
data4=json.loads(data3) #运行到此处时,会出错。因为 data3的内容是(有单引号): <class 'str'> {'name':'Alex'}
print(type(data4),data4)
二、pickle 模块 (了解)
pickle模块与json模块基本一样,也有pickle.dump() 、pickle.dumps(); pickle.load()、pickle.loads()
和json模块的不同点:
- pickle模块 支持的数据类型更多
- pickle模块 dump处理,保存数据到文件时,我们一般的打开文件后,无法正常阅读 (因为pickle.dump()处理后,数据变成bytes,再写入文件的),一定程度上可起到安全保护作用。
- 经过pickle的dump处理,保存到文件后,要提取文件信息,只能通过 pickle.load() 来解析
三、xml 模块
xml是实现不同语言或程序之间进行数据交换的协议,跟json差不多,但json使用起来更简单,不过,古时候,在json还没诞生的黑暗年代,大家只能选择用xml呀,至今很多传统公司如金融行业的很多系统的接口还主要是xml
xml的格式如下,就是通过<>节点来区别数据结构的
<?xml version="1.0"?>
<data>
<country name="Liechtenstein">
<rank updated="yes">2</rank>
<year>2008</year>
<gdppc>141100</gdppc>
<neighbor name="Austria" direction="E"/>
<neighbor name="Switzerland" direction="W"/>
</country>
<country name="Singapore">
<rank updated="yes">5</rank>
<year>2011</year>
<gdppc>59900</gdppc>
<neighbor name="Malaysia" direction="N"/>
</country>
<country name="Panama">
<rank updated="yes">69</rank>
<year>2011</year>
<gdppc>13600</gdppc>
<neighbor name="Costa Rica" direction="W"/>
<neighbor name="Colombia" direction="E"/>
</country>
</data>
xml协议在各个语言里的都 是支持的,在python中可以用以下模块操作xml:
import xml.etree.ElementTree as ET # 给导入的模块,起个别名
tree = ET.parse("xml_test.xml") #获取xml操作对象
root = tree.getroot() #获取根节点(对象)
print(root.tag) #1. tag: 节点的标签名
# 遍历xml 根节点
for child in root:
print(child.tag, child.attrib) #2 attrib:子节点的属性 (字典,键值对的形式)
for i in child: #遍历二级节点
print(i.tag, i.text) #3 text: 三级子节点的 文本
# 只遍历year 节点
for node in root.iter('year'): #遍历root根节点下的所有<year>三级节点
print(node.tag, node.text)
# ---------------------------------------
import xml.etree.ElementTree as ET
tree = ET.parse("xml_test.xml")
root = tree.getroot()
# 修改
for node in root.iter('year'): # .iter() 遍历根节点下,所有tag是"year"的子节点
new_year = int(node.text) + 1 #年份+1
node.text = str(new_year) #完成年份的修改
node.set("updated", "yes") #修改属性(属性名,属性值),若该节点没有属性,则会添加 注意:只是在内存里修改了对象
# tree.write("xmltest-new.xml") #修改后,写入文件(新文件)
tree.write("xml_test.xml") #修改后,写入文件(原文件覆盖)
# 删除node
for country in root.findall('country'): #.findall() #遍历根节点下 所有的tag是"country"的子节点
rank = int(country.find('rank').text) #.find()根据节点的tag查找子节点
if rank > 50:
root.remove(country) # .remove() 移除节点
tree.write('output.xml') #修改后,写入文件
XML文件操作
自己创建xml文档
import xml.etree.ElementTree as ET
new_xml = ET.Element("namelist")
name = ET.SubElement(new_xml,"name",attrib={"enrolled":"yes"})
age = ET.SubElement(name,"age",attrib={"checked":"no"})
sex = ET.SubElement(name,"sex")
sex.text = '33'
name2 = ET.SubElement(new_xml,"name",attrib={"enrolled":"no"})
age = ET.SubElement(name2,"age")
age.text = '19'
et = ET.ElementTree(new_xml) #生成文档对象
et.write("test.xml", encoding="utf-8",xml_declaration=True)
ET.dump(new_xml) #打印生成的格式
View Code