从HTML表格中提取数据

9 浏览2023年4月9日

匿名的 2023年4月9日

0 Comments

我正在寻找一种在Linux shell环境中从HTML中获取特定信息的方法。

我感兴趣的部分如下：


  
    Tests
    Failures
    Success Rate
    Average Time
    Min Time
    Max Time
  
  
    103
    24
    76.70%
    71 ms
    0 ms
    829 ms

Tests	Failures	Success Rate	Average Time	Min Time	Max Time
103	24	76.70%	71 ms	0 ms	829 ms

我想将其存储在shell变量中，或者从上述HTML中提取的键值对中输出。例如：

Tests         : 103
Failures      : 24
Success Rate  : 76.70%
依此类推..

目前我能做的是创建一个Java程序，使用sax解析器或html解析器（如jsoup）来提取这些信息。

但是在这里使用Java似乎有点多余，因为你要执行的"包装"脚本中要包含可运行的jar文件。

我相信肯定有"shell"语言可以实现同样的功能，比如Perl、Python、Bash等。

我的问题是我对这些语言一窍不通，有人能帮我解决这个"相当简单"的问题吗？

快速更新：

我忘了提到我在.html文档中有更多的表格和更多的行，对此表示抱歉（早上太匆忙了）。

更新2：

尝试安装BeautifulSoup，因为我没有root权限：

$ wget http://www.crummy.com/software/BeautifulSoup/bs4/download/4.0/beautifulsoup4-4.1.0.tar.gz
$ tar -zxvf beautifulsoup4-4.1.0.tar.gz
$ cp -r beautifulsoup4-4.1.0/bs4 .
$ vi htmlParse.py #（将代码从Tichodromas的答案中粘贴进去，只是为了确保这是我粘贴的内容）
$ 运行文件（python htmlParse.py）

错误：

$ python htmlParse.py
Traceback (most recent call last):
  File "htmlParse.py", line 1, in ?
    from bs4 import BeautifulSoup
  File "/home/gdd/setup/py/bs4/__init__.py", line 29
    from .builder import builder_registry
         ^
SyntaxError: invalid syntax

更新3：

运行Tichodromas的答案会出现以下错误：

Traceback (most recent call last):
  File "test.py", line 27, in ?
    headings = [th.get_text() for th in table.find("tr").find_all("th")]
TypeError: 'NoneType' object is not callable

有什么想法吗？

使用PHP将HTML表格解析为数组- 获取图像属性

通过Bash解析表格中的数据或数据

使用Python的LXML库从HTML网页中提取信息。

如何通过用户脚本获取HTML表格内容？

使用curl在html中查找每个。 Note: HTML标签和引号或双引号内的内容不需要翻译。

BeautifulSoup：获取特定表格的内容

如何将HTML表格转换为CSV？

在Linux上解码Bs4的数据

如何解析这个表格并从中提取数据？

如何通过Android提取表格数据

如何使用jsoup解析HTML表格？

如何使用Python解析JavaScript变量？

在Linux中从Excel数据透视表电子表格中提取数据

元素">Selenium/Python：查找没有其他属性的元素

解析HTML表格为Python列表？

如何使用简单的HTML解析器或其他方法获取值。

python BeautifulSoup解析表格

HTML表格转换为php数组

如何使用xpath从特定网站获取值并将其存储在数组中？ (ANDROID)

使用循环来迭代HTML表格值Python。

从HTML表格中提取数据

0 答案