如何使用Python替换/删除PDF中的文本?

16 浏览
0 Comments

如何使用Python替换/删除PDF中的文本?

这个问题已经在下面有答案了

如何使用Python替换PDF中的文本?

我有一些代码可以隐藏PDF的部分内容(通过使用白色多边形覆盖),但问题是,文本仍然存在,如果你使用Ctrl + F,你仍然可以找到它。

我的目标是实际从PDF中删除文本。使用pdfminer,我成功地从PDF中提取了文本,但我不知道是否可能实际上“替换”文本,例如只是用一些空格。使用Python是否可能做到这一点?提取它是不够的。我需要从PDF中删除文本。

admin 更改状态以发布 2023年5月21日
0
0 Comments

这种方法比较消耗内存,但是你可以复制pdf的其余部分,而不是正在删除的部分,然后用新版本覆盖原文件,新版本中不包含你想要删除的部分。你可以使用PyPDF通过检索内容流并查找和删除相关部分来实现这一点。

PyPDF的文档https://pythonhosted.org/PyPDF2/PageObject.html?highlight=getcontents#PyPDF2.pdf.PageObject.getContents;

PDF标准https://www.adobe.com/content/dam/acom/en/devnet/pdf/pdfs/PDF32000_2008.pdf第78页,第81页;

0
0 Comments

我在一个项目中使用了pdf-redactor,它的效果非常不错。

这里有一个示例,演示如何从文本层中编辑社会安全号码。

0