使用JAVA解析网站HTML

13 浏览2023年3月12日

匿名的 2023年3月12日

0 Comments

我想解析一个简单的网站并从中抓取信息。

我过去用DocumentBuilderFactory解析XML文件，我尝试用同样的方法解析HTML文件，但总是陷入无限循环。

    URL url = new URL("http://www.deneme.com");
    URLConnection uc = url.openConnection();
    InputStreamReader input = new InputStreamReader(uc.getInputStream());
    BufferedReader in = new BufferedReader(input);
    String inputLine;
    FileWriter outFile = new FileWriter("orhancan");
    PrintWriter out = new PrintWriter(outFile);
    while ((inputLine = in.readLine()) != null) {
        out.println(inputLine);
    }
    in.close();
    out.close();
    File fXmlFile = new File("orhancan");
    DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
    DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
    Document doc = dBuilder.parse(fXmlFile);
    NodeList prelist = doc.getElementsByTagName("body");
    System.out.println(prelist.getLength());

问题出在哪里？或者有没有更简单的方法来从给定的HTML标签中抓取网站数据？

将整个html文件读取为字符串？

使用Java进行Web scraping

如何在Java中获取HTML

如何“扫描”一个网站（或页面）以获取信息，并将其引入我的程序中？

尝试让 BufferedReader 在读取第一行之后继续读取。

Jsoup 选择并迭代所有元素

为什么我会收到“文件结束过早”错误？

致命错误：1:1：内容不允许在文档开头位置。

如何使用xpath从特定网站获取值并将其存储在数组中？ (ANDROID)

使用Java中的for循环删除HTML标签

Java HTML解析 [关闭]

如何使用Java直接从互联网读取文本文件？

如何在Google Apps Script中解析HTML字符串而不使用XmlService？

如何使用Java提取网页的文本内容？

无法连接和读取网页。

在Java中将HTML转换为纯文本

在Android中解析HTML

在Java中读取XML API响应

在Java中从HTML文件中提取文本

使用JAVA解析网站HTML

0 答案