从网站中提取正文文本,例如只提取文章标题和正文文本,而不是网站中的所有文本。

10 浏览
0 Comments

从网站中提取正文文本,例如只提取文章标题和正文文本,而不是网站中的所有文本。

我正在寻找能够从网站上提取文本的算法。我指的不是"去除HTML",也不是任何能够实现这一功能的数百个库。

例如,对于一篇新闻文章,我想要识别标题和所有的文本,但不包括评论部分等等。

是否有相关的算法存在?谢谢!

0