[草稿]想给自己写一个爬虫,功能是将爱打 "mark" 的坛友 ID 导出成列表。请问跑起来对 V2 压力大吗?

2018-11-20 02:05:10 +08:00
 CEBBCAT
### **背景**:

最近几天回复列表总是见到有人回复 "mark" / "战略性 mark"。在我看来,这样既没有践行 "让回复对别人有帮助",也扰乱别人看帖,毕竟有收藏可用。

### **我想**:

我想写一个爬虫,把内容简单的 "mark"er 挑选出来,人工查看回复历史决定是否要 Block 这个用户

### **想问**:

- 对 V2EX 的服务器压力不大吧?  
我将不带有 cookie 爬取,因为我这个爬虫门外汉觉得带了 cookie 会让降低 CDN 的作用,使后台运算量增大
-

### **爬虫机制简述**:

最早处理 20181101 的帖子:  
        每帖在发布( 5 日,30 日,180 日)后进行一次回溯:  
        	对每一层回复来说:
227 次点击
所在节点    自言自语
3 条回复
skyqqcc
2018-11-22 03:06:53 +08:00
看完了,没看懂....🙃🙃🙃
CEBBCAT
2018-11-22 10:31:57 +08:00
@skyqqcc 嘻嘻,还是草稿
sdtfll
2019-05-31 22:43:24 +08:00
不管压力大不大,你总会要遍历所有的贴,

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/509457

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX