使用Java进行Web scraping

17 浏览2023年7月29日

匿名的 2023年7月29日

0 Comments

我找不到好的基于Java的网页抓取API。我需要抓取的网站也没有提供任何API；我想使用某个pageID来遍历所有网页，并提取它们DOM树中的HTML标题/其他内容。

除了网页抓取以外，还有其他方法吗？

0

如何使用Java提取网页的文本内容？

Android无头浏览器进行网络爬虫 [已关闭]

网页挖掘、抓取还是爬取？我应该使用哪个工具/库？

如何在Java中获取HTML

如何在Java中获取网页截图？

Java HTML解析 [关闭]

如何“扫描”一个网站（或页面）以获取信息，并将其引入我的程序中？

使用JAVA解析网站HTML

使用Node.js和XPath高效解析HTML页面

基于浏览器的客户端爬取

有人知道一个好的基于Python的网络爬虫吗？

使用无限滚动来爬取网站

如何在Java中使用Selenium获取org.w3c.doc.Document或Node引用？

如何在Java中使用XPath读取XML

如何使用XPath获取String值的列表？

抓取一个动态网站

如何在Java中以编程方式下载网页

Jsoup 选择并迭代所有元素

从网站中提取正文文本，例如只提取文章标题和正文文本，而不是网站中的所有文本。