我使用 iText 去读取 PDF 内的信息,使用如下方法可以将有标签的 PDF 转换成 xml,可是遇到中文标签(不是正文中出现中文)的时候会出现乱码
TaggedPdfReaderTool readertool = new TaggedPdfReaderTool();
PdfReader reader = new PdfReader(pdfPath);
readertool.convertToXml(reader, new FileOutputStream(xmlPath));
reader.close();
出现的内容类似于
<??-??-??>标题</??-??-??>
正确的应该是
<标题>标题</标题>
有什么方法可以处理掉这些乱码内容