python提取xml文件为json格式 python获取xml文件内容

转载

编程小天匠 2024-07-05 21:19:31

文章标签 python xml 解析xml xml文件 文章分类 Python 后端开发

python语言解析xml文件的常用的有两种方式：

通过MiniDom库解析xml文件
通过ElementTree库解析xml文件

MiniDom方式解析xml

xml文件以data.xml为例，具体操作如下：

data.xml:
<?xml version="1.0" encoding="utf-8"?>
<info>
   <intro>保存用户的信息</intro>
    <list id='001'>
        <head>auto_userone</head>
        <name>Jordy</name>
        <number>12345678</number>
        <age>20</age>
        <sex>男</sex>
        <hobby>上网</hobby>
    </list>
 
   <list id='002'>
        <head>auto_usertwo</head>
        <name>功夫</name>
         <number>34443678</number>
         <age>18</age>
         <sex>男</sex>
         <hobby>功夫</hobby>
     </list>
 
</info>
 1.  得到DOM对象
DOM是Document Object Model的简称，它是以对象树来表示一个XML。
     import xml.dom.minidom
#得到dom对象

     dom = xml.dom.minidom.parse("data.xml")2.  得到文档元素对象
#得到文档元素对象

root = dom.documentElement  #这里得到的是根节点info#打印根节点的 名字       节点的值      节点类型

print(root.nodeName, root.nodeValue, root.nodeType)节点的属性：
每一个节点都有它的nodeName，nodeValue，nodeType属性。nodeName为节点名字。
nodeValue是节点的值，只对文本节点有效。nodeType是节点的类型，现在有以下几种：
‘ATTRIBUTE_NODE’
‘CDATA_SECTION_NODE’
‘COMMENT_NODE’
‘DOCUMENT_FRAGMENT_NODE’
‘DOCUMENT_NODE’
‘DOCUMENT_TYPE_NODE’
‘ELEMENT_NODE’
‘ENTITY_NODE’
‘ENTITY_REFERENCE_NODE’
‘NOTATION_NODE’
‘PROCESSING_INSTRUCTION_NODE’
‘TEXT_NODE’
Node.ELEMENT_NODE == 1
Node.ATTRIBUTE_NODE == 2
Node.TEXT_NODE == 3
Node.CDATA_SECTION_NODE == 4
Node.ENTITY_REFERENCE_NODE == 5
Node.ENTITY_NODE == 6
Node.PROCESSING_INSTRUCTION_NODE == 7
Node.COMMENT_NODE == 8
Node.DOCUMENT_NODE == 9
Node.DOCUMENT_TYPE_NODE == 10
Node.DOCUMENT_FRAGMENT_NODE == 11
Node.NOTATION_NODE == 12
3.子元素、子节点的访问 
对于已经知道元素名字的子元素，可以通过使用getElementsByTagName()方法访问，例：
root.getElementsByTagName("intro") #读取intro子元素
返回的结果是一个列表。
如果要得到某元素下的所有子节点，可以使用childNodes属性:

root.childNodesgetElementsByTagName()可以搜索当前元素的所有子元素，包括所有层次的子元素。childNodes只保存了当前元素的第一层子结点。
比如：我们想要得到intro元素下的值“保存用户的信息”，实现如下代码：
node = root.getElementsByTagName("intro")[0]
for node in node.childNodes:

     if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):        print (node.data)
 
这种方式在获取元素的文本时，需要先判断才行，所以使用起来感觉不是太方便。
 
ElementTree库解析xml文件
ElementTree属于python标准库的一部分,ElementTree的parse()方法是这个库的主要入口，它使用文件名或流对象作为参数，parse()方法会立即解析完整个文档，它返回的对象是整个文档的对象，而不是根元素，如果要获取根元素，可以调用getroot()方法。
使用上述的data.xml文档，通过ElementTree库解析的代码：
import xml.etree.ElementTree as ET 
#读取xml文件 def load_xml_file(fileName):
root = ET.parse(fileName).getroot() 
#获取文件描述 
intro = root.find('intro').text
print(intro) 
#获取所有list节点 all_users = root.findall('list') 
#遍历list节点的子元素
for user in all_users: 
    #得到head节点的文本
    head = user.find('head').text  
    #得到name节点的文本
    name = user.find('name').text 
   #得到sex节点的文本
   sex = user.find('sex').text
        print(head, name, sex) 
if __name__ == '__main__':
 
    load_xml_file('data.xml')

通过这种方式解析xml文件比起使用minidom库解析xml文件的，操作要方便的多。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。