解析XML时，在文档的元素内容中发现了一个无效的XML字符（Unicode：0xb）。

Question

22 浏览2023年5月1日

匿名的 2023年5月2日

0 Comments

解析 XML 数据时出现错误。错误原因是在文档的元素内容中发现了一个无效的 XML 字符（Unicode: 0xb）。问题可能出现在电话号码标签中 95412563#25,23778#34,87976#54。您可以通过删除或替换该无效字符来解决这个问题。

0

1 答案

匿名的 · Answer 1 · 2023-07-18T13:03:31+00:00

当输入无效的XML字符时，会出现这样的错误。当你在Notepad++中打开它时，它看起来像VT，SOH，FF。这些都是无效的XML字符。我正在使用XML版本1.0，并且在将文本数据输入数据库之前，通过使用以下模式验证文本数据：

Pattern p = Pattern.compile("[^\\u0009\\u000A\\u000D\u0020-\\uD7FF\\uE000-\\uFFFD\\u10000-\\u10FFF]+");
retunContent = p.matcher(retunContent).replaceAll("");

这将确保没有无效的特殊字符进入XML。

解决方法：

要解决这个问题，需要在解析XML文件之前进行一些处理。以下是解决方法的步骤：

1. 创建一个Pattern对象，使用正则表达式来匹配无效的特殊字符。在这个例子中，正则表达式是[^\\u0009\\u000A\\u000D\u0020-\\uD7FF\\uE000-\\uFFFD\\u10000-\\u10FFF]+。

2. 使用matcher()方法来创建一个Matcher对象，将要解析的XML内容作为参数传入。

3. 使用replaceAll()方法将匹配到的无效字符替换为空字符串。

4. 解析经过处理的XML内容。

通过这些步骤，我们可以确保在解析XML时不会出现无效的特殊字符，从而避免出现"Error: An invalid XML character (Unicode: 0xb) was found in the element content of the document while parsing XML with DOM parser"的错误。