如何在重命名脚本中提取PDF文档的标题？

Question

8 浏览2023年5月10日

匿名的 2023年5月11日

0 Comments

我在电脑上有数千个PDF文件，它们的文件名从 a0001.pdf 到 a3621.pdf，每个文件中都有一个标题；例如，a0001.pdf 的标题是 \"aluminum carbonate\"，a0002.pdf 的标题是 \"aluminum nitrate\"，我想提取这些标题来重命名我的文件。\n我使用以下程序来重命名文件：\n

path=r"C:\Users\YANN\Desktop\..."
old='string 1'
new='string 2'
def rename(path,old,new):
    for f in os.listdir(path):
        os.rename(os.path.join(path, f), os.path.join(path, f.replace(old, new)))
rename(path,old,new)

\n我想知道是否有解决办法来提取嵌入在PDF文件中的标题以重命名文件？

0

3 答案

匿名的 · Answer 1 · 2023-09-17T00:41:48+00:00

如何从脚本中提取PDF文档的标题以进行重命名？

问题的出现原因：

有时候我们需要对大量的PDF文档进行管理和重命名，而PDF文档的标题通常是一个很重要的信息。然而，手动逐个打开PDF文档来获取标题是非常繁琐和耗时的。因此，我们需要一种自动化的方法来从PDF文档中提取标题，以便更快速和有效地对文档进行管理和重命名。

解决方法：

我们可以使用pdfminer库来解析PDF文档。其中，info属性包含了PDF的标题。下面是一个样本info的示例：

[{'CreationDate': "D:20170110095753+05'30'", 'Producer': 'PDF-XChange Printer `V6 (6.0 build 317.1) [Windows 10 Enterprise x64 (Build 10586)]', 'Creator': 'PDF-XChange Office Addin', 'Title': 'Python Basics'}]

然后，我们可以使用字典的属性来提取标题。下面是完整的代码（包括遍历所有文件并重命名它们）：

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
import os
start = "0000"
def convert(var):
    while len(var) < 4:
        var = "0" + var
    return var
for i in range(1, 3622):
    var = str(i)
    var = convert(var)
    file_name = "a" + var + ".pdf"
    fp = open(file_name, 'rb')
    parser = PDFParser(fp)
    doc = PDFDocument(parser)
    fp.close()
    metadata = doc.info  # The "Info" metadata
    print metadata
    metadata = metadata[0]
    for x in metadata:
        if x == "Title":
            new_name = metadata[x] + ".pdf"
            os.rename(file_name, new_name)

以上代码通过pdfminer库解析PDF文档并提取出标题信息，然后使用操作系统的重命名函数将文件名修改为提取出的标题。通过这种方法，我们可以在脚本中自动提取PDF文档的标题，并将其用作重命名的依据，从而更方便地管理和操作大量的PDF文档。

匿名的 · Answer 2 · 2023-05-16T11:48:31+00:00

从脚本中提取PDF文档的标题进行重命名的方法

PDF文件是一种常见的电子文档格式，其中包含各种信息，包括标题。有时候我们需要从PDF文档中提取标题，并将其用作文件名或其他用途。本文将介绍如何使用脚本从PDF文档中提取标题，并提供一个解决方案。

要解决这个问题，我们需要使用一个能够读取PDF文件的库。一个例子是pdfrw库，它是一个Python库，可以读取和写入PDF文件。我们可以通过以下步骤来提取PDF文档的标题：

首先，我们需要安装pdfrw库。可以通过pip命令来安装：

pip install pdfrw

接下来，我们需要在脚本中导入PdfReader类，并使用它来读取PDF文件。请确保将'example.pdf'替换为你要读取的实际文件名：

from pdfrw import PdfReader
reader = PdfReader('example.pdf')

然后，我们可以使用reader.Info.Title来访问PDF文档的标题。这将返回一个字符串，其中包含PDF文档的标题信息。我们可以将该标题用于重命名文件或进行其他操作：

title = reader.Info.Title

最后，我们可以将提取的标题用作文件名或进行其他操作。例如，我们可以使用os库中的rename函数来重命名文件：

import os
os.rename('example.pdf', title + '.pdf')

通过以上步骤，我们可以从PDF文档中提取标题，并将其用作文件名进行重命名或进行其他操作。使用pdfrw库，我们可以方便地读取PDF文件的各种信息，包括标题。这使得自动化处理PDF文件变得更加简单和高效。

匿名的 · Answer 3 · 2023-08-01T00:14:55+00:00

问题的出现原因：在脚本中如何从PDF文档中提取标题以进行重命名？

解决方法：需要安装外部包pdfrw来读取PDF元数据，并使用pip进行安装。接下来，使用pdfrw包中的PdfReader函数来提取PDF标题，并使用os.rename函数来重命名文件。需要注意，不是所有的PDF文档都有Info.Title属性，因此在使用之前需要进行检查。最后，遍历目标文件夹中的所有PDF文件，将其重命名为对应的PDF标题。

文章如下：

如何从脚本中提取PDF文档的标题以进行重命名？

安装包

这个问题无法通过纯Python解决，需要使用外部包pdfrw来读取PDF元数据。可以使用标准的Python包管理工具pip来进行安装。在Windows系统上，首先确保你拥有最新版本的pip，可以使用以下命令进行更新：

python -m pip install -U pip

在Linux系统上，可以使用以下命令进行更新：

pip install -U pip

在两个平台上，安装pdfrw包的命令如下：

pip install pdfrw

代码示例

下面的代码结合了zeebonk和user2125722的方法，编写了一段非常简洁易读的代码，与原始代码非常接近：

import os
from pdfrw import PdfReader
path = r'C:\Users\YANN\Desktop'
def renameFileToPDFTitle(path, fileName):
    fullName = os.path.join(path, fileName)
    # 从PDF文件中提取PDF标题
    newName = PdfReader(fullName).Info.Title
    # 去除标题周围的括号
    newName = newName.strip('()') + '.pdf'
    newFullName = os.path.join(path, newName)
    os.rename(fullName, newFullName)
for fileName in os.listdir(path):
    # 仅重命名PDF文件
    fullName = os.path.join(path, fileName)
    if (not os.path.isfile(fullName) or fileName[-4:] != '.pdf'):
        continue
    renameFileToPDFTitle(path, fileName)

这段代码非常有用，但需要注意的是，并不是所有的PDF文档都有Info.Title属性。在我随机检查的312篇期刊文章中，超过1/3的文章没有标题。但对于有标题的文章来说，这段代码非常好用。

请不要指导用户在使用`pip install`命令时添加`sudo`，这是一个安全问题（参见这里）。