如何使用Python替换/删除PDF中的文本?
如何使用Python替换/删除PDF中的文本?
这个问题已经在下面有答案了:
我有一些代码可以隐藏PDF的部分内容(通过使用白色多边形覆盖),但问题是,文本仍然存在,如果你使用Ctrl + F,你仍然可以找到它。
我的目标是实际从PDF中删除文本。使用pdfminer,我成功地从PDF中提取了文本,但我不知道是否可能实际上“替换”文本,例如只是用一些空格。使用Python是否可能做到这一点?提取它是不够的。我需要从PDF中删除文本。
admin 更改状态以发布 2023年5月21日
这种方法比较消耗内存,但是你可以复制pdf的其余部分,而不是正在删除的部分,然后用新版本覆盖原文件,新版本中不包含你想要删除的部分。你可以使用PyPDF通过检索内容流并查找和删除相关部分来实现这一点。
PDF标准https://www.adobe.com/content/dam/acom/en/devnet/pdf/pdfs/PDF32000_2008.pdf第78页,第81页;