检索网页内容

16 浏览
0 Comments

检索网页内容

这个问题已经有了答案:

如何在Java中编程地下载网页

如何使用java.net.URLConnection 发送和处理HTTP请求

我想获取一个网页并将内容保存为字符串。有没有一个库可以做到这一点?我想把这个字符串用在我正在构建的程序中。它适用于那些不一定提供rss feed的网站。

admin 更改状态以发布 2023年5月23日
0
0 Comments

我可以建议使用JSoup吗?

Document doc = Jsoup.connect("www.google.com").get();

0
0 Comments

我认为你需要这个

URL url = new URL("http://www.google.com/");
URLConnection con = url.openConnection();
InputStream in = con.getInputStream();
String encoding = null; // con.getContentEncoding(); *** WRONG: should use "con.getContentType()" instead but it returns something like "text/html; charset=UTF-8" so this value must be parsed to extract the actual encoding
encoding = encoding == null ? "UTF-8" : encoding;
String body = IOUtils.toString(in, encoding);
System.out.println(body);

0