如何从PDF文件中提取文本？

Question

22 浏览2023年5月23日

匿名的 2023年2月4日

0 Comments

我正在尝试使用Python从这个 PDF 文件中提取文本。

我使用的是PyPDF2包（版本1.27.2），并且有以下脚本：

import PyPDF2
with open("sample.pdf", "rb") as pdf_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    page = read_pdf.pages[0]
    page_content = page.extractText()
print(page_content)

当我运行代码时，输出与PDF文档中包含的内容不同：

 ! " # $ % # $ % &% $ &' ( ) * % + , - % . / 0 1 ' * 2 3% 4
5
 ' % 1 $ # 2 6 % 3/ % 7 / ) ) / 8 % &) / 2 6 % 8 # 3" % 3" * % 31 3/ 9 # &)
%

我该如何提取与PDF文档中的内容相同的文本？

admin 更改状态以发布 2023年5月23日

0

1 答案

匿名的 · Answer 1 · 2023-02-04T20:57:58+00:00

我正在寻找一个简单的解决方案，用于python 3.x和Windows。很遗憾，textract似乎没有提供支持，但是如果你正在寻找一个简单的解决方案，适用于Windows/Python 3，请查看tika包，非常容易读取PDF。

Tika-Python是一个Python绑定到Apache Tika™ REST服务的包，允许在Python社区本地调用Tika。

from tika import parser # pip install tika
raw = parser.from_file('sample.pdf')
print(raw['content'])

请注意，Tika是用Java编写的，因此您需要安装Java运行时。