Python和XML

XML 是一种可移植的开源语言,它允许程序员开发可由其他应用程序读取的应用程序,而不管操作系统和/或开发语言如何。

什么是 XML?

可扩展标记语言 (XML) 是一种与 HTML 或 SGML 非常相似的标记语言。这是万维网联盟推荐的,可作为开放标准使用。

XML 对于跟踪中小型数据量非常有用,无需基于 SQL 的主干。

XML 解析器架构和 API

Python 标准库提供了一组最小但有用的接口来处理 XML。

XML 数据的两个最基本和最广泛使用的 API 是 SAX 和 DOM 接口。

  • Simple API for XML (SAX) - 在这里,您为感兴趣的事件注册回调,然后让解析器继续处理文档。当您的文档很大或您有内存限制时,这很有用,它会在从磁盘读取文件时解析文件,并且整个文件永远不会存储在内存中。
  • 文档对象模型 (DOM) API - 这是万维网联盟的建议,其中将整个文件读入内存并以分层(基于树的)形式存储,以表示 XML 文档的所有特征。

在处理大文件时,SAX 显然无法像 DOM 那样快速处理信息。另一方面,仅使用 DOM 确实会杀死您的资源,尤其是在大量小文件上使用时。

SAX 是只读的,而 DOM 允许更改 XML 文件。由于这两个不同的 API 实际上是相互补充的,所以没有理由不能将它们都用于大型项目。

对于我们所有的 XML 代码示例,让我们使用一个简单的 XML 文件movies.xml作为输入 -



   War, Thriller
   DVD
   2003
   PG
   10
   Talk about a US-Japan war


   Anime, Science Fiction
   DVD
   1989
   R
   8
   A schientific fiction

   
   Anime, Action
   DVD
   4
   PG
   10
   Vash the Stampede!


   Comedy
   VHS
   PG
   2
   Viewable boredom

使用 SAX API 解析 XML

SAX 是事件驱动的 XML 解析的标准接口。使用 SAX 解析 XML 通常需要您通过子类化 xml.sax.ContentHandler 创建自己的 ContentHandler。

您的ContentHandler处理您的 XML 风格的特定标签和属性。ContentHandler 对象提供了处理各种解析事件的方法。它拥有的解析器在解析 XML 文件时调用 ContentHandler 方法。

在 XML 文件的开头和结尾调用方法startDocumentendDocument 。方法characters(text)通过参数text 传递XML 文件的字符数据。

ContentHandler 在每个元素的开始和结束处被调用。如果解析器不处于命名空间模式,则调用方法startElement(tag, attributes)endElement(tag);否则,调用相应的方法startElementNSendElementNS。这里,tag 是元素标签,attributes 是一个 Attributes 对象。

以下是在继续之前要了解的其他重要方法 -

make_parser方法_

以下方法创建一个新的解析器对象并返回它。创建的解析器对象将是系统找到的第一个解析器类型。

xml.sax.make_parser( [parser_list] )

这是参数的详细信息 -

  • parser_list - 可选参数,由要使用的解析器列表组成,这些解析器必须全部实现 make_parser 方法。

解析方法_

以下方法创建一个 SAX 解析器并使用它来解析文档。

xml.sax.parse( xmlfile, contenthandler[, errorhandler])

这是参数的详细信息 -

  • xmlfile - 这是要读取的 XML 文件的名称。
  • contenthandler - 这必须是一个 ContentHandler 对象。
  • errorhandler - 如果指定,errorhandler 必须是 SAX ErrorHandler 对象。

parseString方法_

还有另一种方法可以创建 SAX 解析器并解析指定的XML 字符串

xml.sax.parseString(xmlstring, contenthandler[, errorhandler])

这是参数的详细信息 -

  • xmlstring - 这是要读取的 XML 字符串的名称。
  • contenthandler - 这必须是一个 ContentHandler 对象。
  • errorhandler - 如果指定,errorhandler 必须是 SAX ErrorHandler 对象。

例子

#!/usr/bin/python

import xml.sax

class MovieHandler( xml.sax.ContentHandler ):
   def __init__(self):
      self.CurrentData = ""
      self.type = ""
      self.format = ""
      self.year = ""
      self.rating = ""
      self.stars = ""
      self.description = ""

   # Call when an element starts
   def startElement(self, tag, attributes):
      self.CurrentData = tag
      if tag == "movie":
         print "*****Movie*****"
         title = attributes["title"]
         print "Title:", title

   # Call when an elements ends
   def endElement(self, tag):
      if self.CurrentData == "type":
         print "Type:", self.type
      elif self.CurrentData == "format":
         print "Format:", self.format
      elif self.CurrentData == "year":
         print "Year:", self.year
      elif self.CurrentData == "rating":
         print "Rating:", self.rating
      elif self.CurrentData == "stars":
         print "Stars:", self.stars
      elif self.CurrentData == "description":
         print "Description:", self.description
      self.CurrentData = ""

   # Call when a character is read
   def characters(self, content):
      if self.CurrentData == "type":
         self.type = content
      elif self.CurrentData == "format":
         self.format = content
      elif self.CurrentData == "year":
         self.year = content
      elif self.CurrentData == "rating":
         self.rating = content
      elif self.CurrentData == "stars":
         self.stars = content
      elif self.CurrentData == "description":
         self.description = content
  
if ( __name__ == "__main__"):
   
   # create an XMLReader
   parser = xml.sax.make_parser()
   # turn off namepsaces
   parser.setFeature(xml.sax.handler.feature_namespaces, 0)

   # override the default ContextHandler
   Handler = MovieHandler()
   parser.setContentHandler( Handler )
   
   parser.parse("movies.xml")

这将产生以下结果 -

*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Year: 2003
Rating: PG
Stars: 10
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Year: 1989
Rating: R
Stars: 8
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Stars: 10
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Stars: 2
Description: Viewable boredom

有关 SAX API 文档的完整详细信息,请参阅标准Python SAX API。

使用 DOM API 解析 XML

文档对象模型 (“DOM”) 是万维网联盟 (W3C) 的跨语言 API,用于访问和修改 XML 文档。

DOM 对于随机访问应用程序非常有用。SAX 一次只允许您查看文档的一个位。如果您正在查看一个 SAX 元素,则无法访问另一个元素。

这是快速加载 XML 文档和使用 xml.dom 模块创建 minidom 对象的最简单方法。minidom 对象提供了一个简单的解析器方法,可以从 XML 文件快速创建一个 DOM 树。

样例语句调用minidom对象的parse(file[,parser])函数,将file指定的XML文件解析成DOM树对象。

#!/usr/bin/python

from xml.dom.minidom import parse
import xml.dom.minidom

# Open XML document using minidom parser
DOMTree = xml.dom.minidom.parse("movies.xml")
collection = DOMTree.documentElement
if collection.hasAttribute("shelf"):
   print "Root element : %s" % collection.getAttribute("shelf")

# Get all the movies in the collection
movies = collection.getElementsByTagName("movie")

# Print detail of each movie.
for movie in movies:
   print "*****Movie*****"
   if movie.hasAttribute("title"):
      print "Title: %s" % movie.getAttribute("title")

   type = movie.getElementsByTagName('type')[0]
   print "Type: %s" % type.childNodes[0].data
   format = movie.getElementsByTagName('format')[0]
   print "Format: %s" % format.childNodes[0].data
   rating = movie.getElementsByTagName('rating')[0]
   print "Rating: %s" % rating.childNodes[0].data
   description = movie.getElementsByTagName('description')[0]
   print "Description: %s" % description.childNodes[0].data

这将产生以下结果 -

Root element : New Arrivals
*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Rating: PG
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Rating: R
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Description: Viewable boredom

相关文章

Python 解析 XML

1 简介XML 全称 Extensible Markup Language,中文译为可扩展标记语言。XML 之前有两个先行者:SGML 和 HTML,率先登场的是 SGML, 尽管它功能强大,但文档结...

Python 读写XML文件

在Python中,可以使用内置的xml.etree.ElementTree模块来读取和写入XML文件。这个模块提供了一种简单而有效的方式来解析和操作XML文档。下面是使用xml.etree.Eleme...

深入解析:Python中的XML处理技巧与实践

解析XML文件是Python编程中的一项重要技能,特别是在处理配置文件、数据交换格式或web服务响应时。Python提供了多种库来实现这一功能,其中xml.etree.ElementTree和lxml...

python编程:配置文件xml的读取写入

XML,全称为ExtentsibleMarkup Language,即可扩展标记语言,是用来定义其它语言的一种元语言,使用自定义的标签对文档内容进行描述。被设计用来传输和存储数据。XML和HTML类似...

20.2 PyQt5-【XML操作】-QXmlStreamWriter

1.QXmlStreamWriter简介在 PyQt5 中,QXmlStreamWriter用于逐步生成 XML 数据。支持以流的形式写入XML,适合处理较大或复杂的XML文件2.QXmlStream...