使用grep从本地文件中获取HTML标签内的文本

Question

12 浏览2023年3月10日

匿名的 2023年3月10日

0 Comments

从输入文件摘录

Municipality: 

JUPITER

我的正则表达式

(?<=)([^]*)

我有一个保存在磁盘上的HTML文件。我想使用grep在文件中搜索并输出特定span的内容，虽然我不知道这是否是grep的正确用法。当我使用从另一个文件中读取的表达式（以免出现转义任何特殊字符）运行grep时，它不输出任何内容。我在RegExr中测试了表达式，它匹配了"JUPITER"，这正是我想要返回的内容。非常感谢你的帮助！

期望的输出

JUPITER

0

3 答案

匿名的 · Answer 1 · 2023-03-29T02:23:37+00:00

在本地文件中获取HTML标签内的文本内容是一个常见的需求。然而，使用grep命令来获取HTML标签内的文本是有一定困难的，因为grep主要用于在文本中查找模式，而不是解析HTML标签。

出现这个问题的原因是由于grep命令的工作原理，它无法直接解析HTML标签并提取其中的文本。因此，我们需要借助其他命令或工具来实现这个目标。

解决这个问题的方法是使用sed命令来提取HTML标签内的文本。上面的命令使用了两个sed命令来完成这个任务。首先，第一个sed命令使用正则表达式'/DInfo1_Municipality'来匹配包含特定标签的行，并通过替换操作将其余的部分去除。然后，第二个sed命令使用正则表达式's/.*>//'来将剩余的标签部分去除，只保留纯文本。

这个解决方法的关键在于使用两个sed命令来逐步处理HTML标签。第一个sed命令通过限定匹配模式来选择特定的标签行，然后通过替换操作去除多余的部分。第二个sed命令进一步处理剩余的标签行，只保留纯文本。

总结起来，要从本地文件中获取HTML标签内的文本，可以使用sed命令来逐步处理标签行。请记住，这个解决方法只适用于简单的HTML标签，并且对于复杂的HTML结构可能无法正常工作。

匿名的 · Answer 2 · 2023-03-19T11:38:57+00:00

问题：如何从本地文件中的HTML标签内获取文本？

原因：根据给定的问题描述，用户想要从本地文件中的HTML标签内获取文本。然而，传统的grep命令无法直接处理HTML标签，因为它是基于行的，而不是基于标签的。因此，需要使用其他工具或方法来解决这个问题。

解决方法：有两种常见的解决方法。

第一种方法是使用sed命令。sed命令是一个流编辑器，可以对文本进行转换和替换。通过使用正则表达式来匹配HTML标签，并使用替换操作来提取标签内的文本。以下是使用sed命令的示例代码：

sed -n 's|^<span id="DInfo1_Municipality">\([^<]*\)</span></TD>$|\1|p' file

第二种方法是使用GNU grep命令，并结合使用正则表达式的lookbehind和lookahead功能。这可以通过使用-P标志来实现，该标志允许使用Perl兼容的正则表达式。以下是使用grep命令的示例代码：

grep -Po '(?<=<span id="DInfo1_Municipality">)([^</span>]*)'

通过传递-P标志给grep命令，可以实现所需的lookbehind和lookahead功能。这样就可以提取出标签内的文本。

以上是解决从本地文件中获取HTML标签内文本的两种常见方法。希望这些方法能够帮助解决您的问题。

匿名的 · Answer 3 · 2023-06-25T10:28:29+00:00

在这个问题中，原因是grep命令不支持正则表达式中的lookbehind断言，并且它在处理这种情况下是一个非常差的工具。然而，对于给定的示例，它是可行的，但在许多情况下会出现问题。

解决这个问题的方法是使用其他编程语言来获取HTML标签内的文本，而不是依赖于grep命令。因为grep命令不支持lookbehind断言，所以无法直接使用grep命令来提取HTML标签内的文本。

因此，需要使用其他编程语言来解析HTML文件并提取所需的文本。通过编写一个程序来处理HTML文件，可以使用适当的库和函数来定位和提取所需的标签内的文本。

通过使用适当的编程语言和库，可以更灵活地处理HTML文件，并且可以根据实际需要进行自定义操作。这比仅仅依赖于grep命令更可靠和可扩展。

谢谢。我有一种感觉，我试图做一些grep不支持的事情。看起来我需要做一些真正的编程来解决这个问题。