如何在node.js中将HTML页面转换为纯文本?

10 浏览
0 Comments

如何在node.js中将HTML页面转换为纯文本?

我知道之前有人提过这个问题,但我找不到一个好的答案来解决node.js的问题。

我需要在服务器端从抓取的HTML页面中提取纯文本(不包含标签、脚本等)。

我知道如何在客户端使用jQuery(获取body标签的.text()内容)来做到这一点,但我不知道如何在服务器端做到这一点。

我尝试过https://npmjs.org/package/html-to-text,但它无法处理脚本。

var { convert } = require('html-to-text');
var request = require('request');
request.get(url, function (error, result) {
    var text = convert(result.body, {
        wordwrap: 130
    });
});

我尝试过phantom.js,但找不到一种方法来获取纯文本。

0