Java 使用 HtmlUnit 和 Jsoup 做爬虫报需要 JavaScript 才能工作问题,求大佬重点

2023-04-24 10:50:32 +08:00
 tiRolin

小弟是我学 java 语言的,所以想着用 java 来做个爬虫来爬取网站的内容

不过我爬取目标网站的时候得到的内容总是"Kikoeru requires Javascript to work. 正在加载 JS 文件,如果你一直看到本界面,请使用 VPN Loading JS file"

我确信我运行爬虫的时候已经开启了 VPN 了,HtmlUnit 的配置里也开启了解析 JS 的配置,一切都没问题,但是就是爬取不出想要的内容出来,去搜索引擎上找也没有找到解决方法

所以来这里问问各位大佬,先谢谢各位了

2036 次点击
所在节点    Java
8 条回复
Juszoe
2023-04-24 11:01:07 +08:00
HtmlUnit 看起来是个无头浏览器库,你是否有启用 js
webClient.getOptions().setJavaScriptEnabled(true)
tulongtou
2023-04-24 11:03:16 +08:00
HtmlUnit 不是完整支持 javascript 的,只支持一部分,你看你目标网站的 js 它支持么
tulongtou
2023-04-24 11:04:25 +08:00
可以考虑使用 selenium ,代码直接调用浏览器,支持完整 javascript
zh826256645
2023-04-24 11:07:13 +08:00
专业的事交给专业的工具,用 Python 去爬吧,也没有多少语法要学
xuf1889
2023-04-24 11:24:57 +08:00
java 程序需要使用 vpn 貌似是需要设置一个参数,找一下对应的 jvm 参数。参考一下: https://blog.csdn.net/qq_38127559/article/details/120769386
cyningxu
2023-04-24 14:22:03 +08:00
我之前也是用 HtmlUnit 和 Jsoup ,但始终有不少问题。现在换成 cdp4j 了,直接调用 chromium 浏览器,兼容性没的说,使用方式没啥大变化。建议你也试试。
Vkery
2023-04-24 17:53:47 +08:00
爬虫写的好 牢饭吃到饱

开个玩笑,我也是 java ,最近再学习用 spider-flow 可视化爬取页面,支持 selenium 插件,可以加载 js
tiRolin
2023-04-25 16:54:29 +08:00
@tulongtou 太感谢了,这个的确解决了我的问题,谢谢谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/934980

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX