我正在寻找能够从网站上提取文本的算法。我指的不是"去除HTML",也不是任何能够实现这一功能的数百个库。
例如,对于一篇新闻文章,我想要识别标题和所有的文本,但不包括评论部分等等。
是否有相关的算法存在?谢谢!
用户名或电子邮箱地址
密码