如何使用Python脚本批量将HTML转换为Markdown

8 浏览
0 Comments

如何使用Python脚本批量将HTML转换为Markdown

这个问题已经有了答案:

如何在给定目录中迭代文件?

我试图将目录中所有的 .html 文件转换为 Markdown。在搜索一些技巧之后,我发现了一个名为 html2text 的 Pypi 脚本。

然后我写了一个代码块来逐个将 .html 文件转换为 .md 文件。

import html2text as ht
import os
import sys
from pathlib import Path
text_maker = ht.HTML2Text()
with open('myHtmlFilePath.html','r',encoding='UTF-8') as f:
    htmlpage = f.read()
text = text_maker.handle(htmlpage)
with open('myMarkdownFileName.md','w') as f:
    f.write(text)

有没有可能将这段代码块包装在循环中,以便它可以在给定目录下将 .html 文件批量转换为 .md 文件?

admin 更改状态以发布 2023年5月23日
0
0 Comments

如果您使用Linux,可以使用find命令。

Linux

import os
dir = "."
for file in os.popen("find " + dir).read().splitlines():
    if file.endswith(".html"):
        print(file)

Windows

import os
dir = "."
for i in os.walk(dir):
    for i2 in i[2]:
        if i2.endswith(".html"):
            print(i[0] + "/" + i2)

0