如何利用Xerces C 解析包含中文字符的XML文

解析包含中文字符的XML 如何利用XercesC++解析包含中文字符的XML 文档下载本文示例代码 Xerces-C++

是目前广泛使用的XML 解析器，在利用它编写 XML 应用以处理包含中文字符的XML 文档时会出现字符编码错

误，如何正确解决这个问题，对于我们开发XML 的应用程序非常有用。本文给出了正确处理的方法和实现类的代码，希望能对大家有所帮助。

1.背景介绍随着XML 技术的普及应用，我国的各行各业有可能会生成大量的包含中文字符的XML 文档。尽管基于Java 技术的XML

Parser 能较好处理这些XML 文档，但是，它不能解决所有的问题，原因是应用开发的复杂性，尤其在我国更为明

显．我们知道，企业的许多应用系统的开发采用了C、C++、VB、Delphi、 FoxPro 等等语言，这些应用不可能用Java 语言重新实现，那么，问题就出现了，如何让这些应用也能处理 XML 文档，甚至是包含中文字符的XML 文档呢？目前有关XML Parser C＋＋语言的实现，非常著名的有Apache 组织的 Xerces 和IBM 的XML4C。Aparche 的Xerces 来源于IBM 的XML4C，

所以，它的编程接口是一致的。二者关键的不同在于字符编码。Apache的Xerces1.6 前只支持少数的字符编码，如ASCII,UTF-8,

UTF-16， UCS4, EBCDIC IBM037 IBM1140,ISO-8859-1 和Windows-1252。因而，采用Apache

的Xerces ＋＋解析器不能处理包含中文字符的XML文档。IBM 的XML4C 支持多达100 字符编码，它将Xerces和International Components Unicode(ICU)结合了起来。因而，我们可以选用 XML4C 作为 XML 的解析器。在使用 XML4C 之前，我们需要首先确认XML4C 的bin 目录是否包含在系统的Path 之中，bin 目录必须要有这些dll：xerces-c_1_6_0D.dll，icudt20.dll，icuuc20.dll， icuuc20d.dll。问题描述在XML4C 应用过程中，我发现调用XML4C

提供的一些API 并不能很好解决中文问题。如解析XML 时生成DOM_Document, 并利用DOM 方法得到某一DOM_Node

节点时，为了获得DOM_Node 的名字或值，需要调用DOM_Node

getNodeName()或getNodeValue()方法，并得到DOMString 对象。根据API

档描述，DOMString类的transcode（）方法，返回字符串的拷贝，并依照本地代码页对此字符串进行编码处理。因而，我在解析图1

的XML 文档并试图获得"爱国的人们"节点的名字时，transcode 方法返回不完整的节点名"爱国"，

而不是完整的"爱国的人们"，这样，我们就无法利用这些信息来进行字符串比较等等操作，XML 的处理就会出现问题。因而，DOMString

的transcode 方法并不能处理XML 的中文字符。 class StrFormatTarget publicXMLFormatTarget public:char GetResult();StrFormatTarget() XML文档的编码定义由文档头 #include