通过Bash解析表格中的数据或数据

Question

18 浏览2023年3月5日

匿名的 2023年3月6日

0 Comments

我想使用Bash中的sed或awk来解析网站上的数据（请随意更改我处理数据的方向）。

这是一个代码示例。

通常情况下，当我在PHP中使用preg_match时，换行符不会成为问题，但在Bash中，我需要完全改变我的正则表达式思维方式。你建议我先准备数据，使其可被sed和awk读取，删除所有换行符，然后根据我想要使用sed或awk的数据结构重新创建它们吗？

例如，我会为每个

创建一个换行符，这样结果看起来像这样。我是对的还是应该放弃这种思维方式？这样做是可行的，但我不太习惯这样操纵数据。

输出应该是，例如：

111|AAA|BBB|Updated October, 2016

0

1 答案

匿名的 · Answer 1 · 2023-08-19T07:24:17+00:00

问题的出现原因：

- 使用xmllint命令解析数据和数据表非常繁琐和麻烦。

- 使用grep命令检索所需的xpath也不是很高效。

解决方法：

- 更高效的方法是使用Python和Beautiful Soup库来解析数据和数据表。

以下是使用Python和Beautiful Soup来解析数据和数据表的示例代码：

from bs4 import BeautifulSoup
# 读取HTML文件
with open('file.html', 'r') as f:
    html = f.read()
# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'html.parser')
# 使用find_all方法查找所有符合要求的元素
results = soup.find_all('xpath')
# 遍历结果并打印
for result in results:
    print(result)

使用Python和Beautiful Soup可以更方便地解析和提取HTML中的数据和数据表。通过使用find_all方法并指定所需的xpath，可以轻松地找到并提取所需的元素。相比于使用xmllint和grep命令，使用Python和Beautiful Soup可以更高效地完成这个任务。