想要用 HtmlUnit 框架做爬虫,我 HtmlUnit 的设置如下
public class WebClientUtils {
public static WebClient getWebClient() {
WebClient webClient = new WebClient(BrowserVersion.FIREFOX);
//配置 webClient
webClient.getOptions().setCssEnabled(false);
webClient.getOptions().setJavaScriptEnabled(true);
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getCookieManager().setCookiesEnabled(true);
webClient.setJavaScriptErrorListener(new JavaScriptErrorListener() {
@Override
public void scriptException(HtmlPage htmlPage, ScriptException e) {
}
@Override
public void timeoutError(HtmlPage htmlPage, long l, long l1) {
}
@Override
public void malformedScriptURL(HtmlPage htmlPage, String s, MalformedURLException e) {
}
@Override
public void loadScriptError(HtmlPage htmlPage, URL url, Exception e) {
}
@Override
public void warn(String s, String s1, int i, String s2, int i1) {
}
});
return webClient;
}
}
然后后文中我就访问该网址,但是问题是居然每次都无法正确获得这个网址的 HtmlPage 对象,结果总是为 null
WebClient webClient = WebClientUtils.getWebClient()
HtmlPage page = webClient.getPage("我要访问的网址");
后文的打印结果显示 page 对象的结果是为 null 的 这个网址因为某些原因所以我不能说,所以就不提了,不过这个网址是以 JSP 结尾的,这个网址可以使用 Selenium 框架正确访问,但是在 HtmlUnit 中却总是无法正确获得对象,同时如果说 Html 只是去访问百度首页的话,那又是可以的,也就是说我这个 htmlunit 就访问我这个 jsp 结尾的网址有问题 我按照百度我试了很多方法都不行,我真没法了所以我来问问大伙们,上面基本就是全部信息了
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.