2
garham OP 这里面的 a2869674571f77b5a0867c3d71db5856
这个数是怎么得到的呢? |
3
garham OP @lwbjing 这里面的 a2869674571f77b5a0867c3d71db5856
这个数是怎么得到的呢?你有兴趣做一下么? |
4
lygmqkl 2016-05-18 16:56:35 +08:00
客户端 抓包吧?
|
5
lwbjing 2016-05-18 16:57:15 +08:00 1
http://img1.cache.netease.com/tie/static/2016051302/tiepage.js ===>>>
``` a = "http://" + document.location.host + "/api/v1/products/" + productKey + "/threads/" + i.srcData.docId + "/comments/" + (o ? "specHotList" : "hotList") + "?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc"; ``` ``` var productKey="a2869674571f77b5a0867c3d71db5856"; ``` |
6
baohao 2016-05-18 16:58:28 +08:00
@garham 你直接访问网站的时候,打开 chrome 或者 firefox 浏览器的 F12 ,调试界面,选到 NetWork/网络选项,就能看到 1L 给的这一系列请求评论的 HTTP 请求了。毫无技术难度。。。。
|
7
Yannis1990 2016-05-18 17:04:39 +08:00
jQuery("[style ='line-height: 21px; margin-bottom: 3px; zoom: 1; word-wrap: break-word;overflow:hidden;']").text()
用 PyQuery |
8
garham OP @lwbjing 非常感谢!已可搞。如果你想来写这个函数可以联系我(输入是 news3_bbs , BNBIJDSQ00014AED ,输出是,把 json 文件稍微整理一下格式,去掉没用的信息,存成文件)
|
9
atnoot 2016-05-18 19:33:00 +08:00
网易系的网站貌似习惯用 json
|
10
Moker 2016-05-18 20:26:56 +08:00
一定是要 py 或者 node 么
|
11
realpg 2016-05-18 23:54:11 +08:00
不是 py 如何交易……
|
12
yangxiaoluck 2016-05-21 11:44:05 +08:00
爬虫专业 5 年, python 。 给你搭建完整的爬虫
|