继续付费找爬虫牛人啊

2019-05-28 09:38:06 +08:00
 zinfinb

把需求里 最核心的两个技术性的难点问题再说明一下

对性能(实时性)有非常高的要求, 抓取到的新闻 最多 1s 内的延迟

再就是部分抓取网站有 websocket 的接口推送新闻的,这个需要搞定

能够解决上面两个问题的联系我,最好是有实际相关项目经验的

开发费用 1w,维护费用 5k/年,服务器硬件还有代理部分预算支出在 2w/年 ,

爬取网站 10 个左右,爬取时间一天 6 小时

联系方式 球球:196063

4746 次点击
所在节点    Go 编程语言
36 条回复
airyland
2019-05-28 09:54:17 +08:00
1s 延迟,先说能不能达到这个延迟,你考虑过人家网站的感受么。
tikazyq
2019-05-28 09:56:53 +08:00
这种实时性要求高的爬虫需要对网页进行秒级监控,这个有些难度,可以用 polling 来搞。websocket 爬虫我认识一个大牛,可以 wx 我 tikazyq1

顺便打个广告,Crawlab 是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业

// github.com /tikazyq/crawlab
zinfinb
2019-05-28 09:57:30 +08:00
@airyland 都是比较大型的网站 1s 访问个 2 到 3 次就打挂了 ?
explorerEX
2019-05-28 10:01:05 +08:00
应该是金融类的产品吧,响应可以在这范围内,稳定性不一定能达到
Moker
2019-05-28 10:01:24 +08:00
什么类型的网站?
lekai63
2019-05-28 10:02:27 +08:00
1 天 6 小时
估计是爬 gov 网站 基于舆情作交易吗
Taeye9n
2019-05-28 10:03:41 +08:00
2w/a 买代理都不够的吧
airyland
2019-05-28 10:07:41 +08:00
@zinfinb 不会挂不意味着这样频率的请求是合理的,大部分在爬的人估计都是这么想的。你考虑的是反正人家不会挂,而站方必须增加更多额外人力资源成本来应对爬虫。
zinfinb
2019-05-28 10:14:28 +08:00
@airyland 多谢提醒 嗯
dryadent
2019-05-28 10:16:08 +08:00
我觉得这个的主要难点在于 1s 之内响应,对应的就是反爬策略的更新和代理的稳定性,我觉得 2w 付代理确实有难度
davie
2019-05-28 10:16:19 +08:00
这个要求有点疯狂啊
fate
2019-05-28 10:16:27 +08:00
自己做新闻源?
native
2019-05-28 10:17:11 +08:00
爬取时间一天 6 小时 ,如何做到实时?只有 6 个小时实时。
zinfinb
2019-05-28 10:18:05 +08:00
@dryadent 这部分 可以 再增加支出
dryadent
2019-05-28 10:20:55 +08:00
@zinfinb 对,我觉得代理这部分可以看着来,一般的网站即使把 ip 封了也不会一直封禁,有一个静默期,用代理池一直更新就好了,主要是测试到准确的静默期边界存在困难
lesterchen
2019-05-28 10:22:50 +08:00
不会被计算机犯罪么~
jpacg
2019-05-28 10:29:51 +08:00
这个确实很危险,算计算机犯罪了,赚白菜的钱,操白粉的心。
Constellation39
2019-05-28 10:32:31 +08:00
监狱里面找 /狗头 /
murmur
2019-05-28 10:35:56 +08:00
1s 延迟你要把别人网站爬炸
dongya
2019-05-28 10:36:36 +08:00
洗洗睡吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/568246

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX