100 块爬网易一条新闻的评论

2016-05-18 16:14:15 +08:00
 garham
给定一个网址,比如 http://comment.news.163.com/news3_bbs/BNBIJDSQ00014AED.html
把其中热门跟帖部分前 10 页的数据存成 json 格式,如果有盖楼需要存下来,用 python 或 node.js 实现。
实验室需要做,周围没有人会,那位大神有兴趣可以微信联系我 ticat-
1275 次点击
所在节点    外包
12 条回复
lwbjing
2016-05-18 16:27:58 +08:00
garham
2016-05-18 16:30:15 +08:00
这里面的 a2869674571f77b5a0867c3d71db5856
这个数是怎么得到的呢?
garham
2016-05-18 16:44:45 +08:00
@lwbjing 这里面的 a2869674571f77b5a0867c3d71db5856
这个数是怎么得到的呢?你有兴趣做一下么?
lygmqkl
2016-05-18 16:56:35 +08:00
客户端 抓包吧?
lwbjing
2016-05-18 16:57:15 +08:00
http://img1.cache.netease.com/tie/static/2016051302/tiepage.js ===>>>


```
a = "http://" + document.location.host + "/api/v1/products/" + productKey + "/threads/" + i.srcData.docId + "/comments/" + (o ? "specHotList" : "hotList") + "?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc";
```


```
var productKey="a2869674571f77b5a0867c3d71db5856";
```
baohao
2016-05-18 16:58:28 +08:00
@garham 你直接访问网站的时候,打开 chrome 或者 firefox 浏览器的 F12 ,调试界面,选到 NetWork/网络选项,就能看到 1L 给的这一系列请求评论的 HTTP 请求了。毫无技术难度。。。。
Yannis1990
2016-05-18 17:04:39 +08:00
jQuery("[style ='line-height: 21px; margin-bottom: 3px; zoom: 1; word-wrap: break-word;overflow:hidden;']").text()

用 PyQuery
garham
2016-05-18 18:42:04 +08:00
@lwbjing 非常感谢!已可搞。如果你想来写这个函数可以联系我(输入是 news3_bbs , BNBIJDSQ00014AED ,输出是,把 json 文件稍微整理一下格式,去掉没用的信息,存成文件)
atnoot
2016-05-18 19:33:00 +08:00
网易系的网站貌似习惯用 json
Moker
2016-05-18 20:26:56 +08:00
一定是要 py 或者 node 么
realpg
2016-05-18 23:54:11 +08:00
不是 py 如何交易……
yangxiaoluck
2016-05-21 11:44:05 +08:00
爬虫专业 5 年, python 。 给你搭建完整的爬虫

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/279574

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX