如何在node.js中将HTML页面转换为纯文本?
- 论坛
- 如何在node.js中将HTML页面转换为纯文本?
10 浏览
如何在node.js中将HTML页面转换为纯文本?
我知道之前有人提过这个问题,但我找不到一个好的答案来解决node.js的问题。
我需要在服务器端从抓取的HTML页面中提取纯文本(不包含标签、脚本等)。
我知道如何在客户端使用jQuery(获取body标签的.text()内容)来做到这一点,但我不知道如何在服务器端做到这一点。
我尝试过https://npmjs.org/package/html-to-text,但它无法处理脚本。
var { convert } = require('html-to-text'); var request = require('request'); request.get(url, function (error, result) { var text = convert(result.body, { wordwrap: 130 }); });
我尝试过phantom.js,但找不到一种方法来获取纯文本。