javascript 分页问题下的爬虫思路怎么解决?

2016-07-20 15:10:03 +08:00
 redhatping
主页面:http://www.smeimdf.org.cn/news/notify.jsp?searchType=1
爬虫目标: 查询各个地区的企业.

遇到的问题:

1,无论查询什么,生成的页面都是: http://www.smeimdf.org.cn/news/searchEntpAudit.jsp (链接中没有参数),
爬虫如何抓取呢

2.查询后的页面-- 如 javascript 下的分页.
爬虫怎么抓取呢
2630 次点击
所在节点    Python
6 条回复
3dwelcome
2016-07-20 15:25:05 +08:00
看了下、是 form post 提交、改一下页面 id 就可以了吧。
lxy
2016-07-20 15:28:43 +08:00
post 提交,页数参数应该是 cpf.cpage 。浏览器按 F12 看一下请求的地址和提交的内容。
redhatping
2016-07-20 15:32:38 +08:00
@3dwelcome 1. ( 网站数据 POST 提交-- 数据库查询--生成页面),抓取 POST action="searchEntpAudit.jsp" 就可以了嘛?

2. 分页怎么办呢?
redhatping
2016-07-20 15:33:31 +08:00
@lxy 好的, 我抓取看看,谢谢.
miaotaizi
2016-07-21 09:02:32 +08:00
他页面上不有分页信息么, 这都做不到?
ZnZt
2016-07-21 11:21:10 +08:00
直接抓接口数据

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/293707

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX