100 块爬网易一条新闻的评论

给定一个网址，比如 http://comment.news.163.com/news3_bbs/BNBIJDSQ00014AED.html
把其中热门跟帖部分前 10 页的数据存成 json 格式，如果有盖楼需要存下来，用 python 或 node.js 实现。
实验室需要做，周围没有人会，那位大神有兴趣可以微信联系我 ticat-

lwbjing

2016-05-18 16:27:58 +08:00

http://comment.news.163.com/news3_bbs/BNBIJDSQ00014AED.html

http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/BNBIJDSQ00014AED/comments/newList?offset=0&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc

http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/BNBIJDSQ00014AED/comments/hotList?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc

garham

2016-05-18 16:30:15 +08:00

这里面的 a2869674571f77b5a0867c3d71db5856
这个数是怎么得到的呢？

garham

2016-05-18 16:44:45 +08:00

@lwbjing 这里面的 a2869674571f77b5a0867c3d71db5856
这个数是怎么得到的呢？你有兴趣做一下么？

lygmqkl

2016-05-18 16:56:35 +08:00

客户端抓包吧？

lwbjing

2016-05-18 16:57:15 +08:00

http://img1.cache.netease.com/tie/static/2016051302/tiepage.js ===>>>

```
a = "http://" + document.location.host + "/api/v1/products/" + productKey + "/threads/" + i.srcData.docId + "/comments/" + (o ? "specHotList" : "hotList") + "?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc";
```

```
var productKey="a2869674571f77b5a0867c3d71db5856";
```

baohao

2016-05-18 16:58:28 +08:00

@garham 你直接访问网站的时候，打开 chrome 或者 firefox 浏览器的 F12 ，调试界面，选到 NetWork/网络选项，就能看到 1L 给的这一系列请求评论的 HTTP 请求了。毫无技术难度。。。。

Yannis1990

2016-05-18 17:04:39 +08:00

jQuery("[style ='line-height: 21px; margin-bottom: 3px; zoom: 1; word-wrap: break-word;overflow:hidden;']").text()

用 PyQuery

garham

2016-05-18 18:42:04 +08:00

@lwbjing 非常感谢！已可搞。如果你想来写这个函数可以联系我（输入是 news3_bbs ， BNBIJDSQ00014AED ，输出是，把 json 文件稍微整理一下格式，去掉没用的信息，存成文件）

atnoot

2016-05-18 19:33:00 +08:00

网易系的网站貌似习惯用 json

Moker

2016-05-18 20:26:56 +08:00

一定是要 py 或者 node 么

realpg

2016-05-18 23:54:11 +08:00

不是 py 如何交易……

yangxiaoluck

2016-05-21 11:44:05 +08:00

爬虫专业 5 年， python 。给你搭建完整的爬虫

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/279574

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.