如何从PDF文件中提取文本?

22 浏览
0 Comments

如何从PDF文件中提取文本?

我正在尝试使用Python这个 PDF 文件中提取文本。

我使用的是PyPDF2包(版本1.27.2),并且有以下脚本:

import PyPDF2
with open("sample.pdf", "rb") as pdf_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    page = read_pdf.pages[0]
    page_content = page.extractText()
print(page_content)

当我运行代码时,输出与PDF文档中包含的内容不同:

 ! " # $ % # $ % &% $ &' ( ) * % + , - % . / 0 1 ' * 2 3% 4
5
 ' % 1 $ # 2 6 % 3/ % 7 / ) ) / 8 % &) / 2 6 % 8 # 3" % 3" * % 31 3/ 9 # &)
%

我该如何提取与PDF文档中的内容相同的文本?

admin 更改状态以发布 2023年5月23日
0
0 Comments

我正在寻找一个简单的解决方案,用于python 3.x和Windows。很遗憾,textract似乎没有提供支持,但是如果你正在寻找一个简单的解决方案,适用于Windows/Python 3,请查看tika包,非常容易读取PDF。

Tika-Python是一个Python绑定到Apache Tika™ REST服务的包,允许在Python社区本地调用Tika。

from tika import parser # pip install tika
raw = parser.from_file('sample.pdf')
print(raw['content'])

请注意,Tika是用Java编写的,因此您需要安装Java运行时。

0