最近谈了一个外包的活,爬一个网站,大概 400 万网页, 1000 元少不少?

2019-03-30 23:14:24 +08:00
 dt2vba
网站没有防止爬取数据的措施。

客户要求,在他的 VPS 上安装 PostgreSQL,把爬取的数据存入该数据库。

VPS 的配置,1 个处理器,1024MiB 内存,20GiB 固态硬盘。这样的配置能应付 2 亿条记录的单表吗?

大佬们,说说你们的看法。非常期待你的建议。
5890 次点击
所在节点    外包
41 条回复
faustina2018
2019-03-31 09:33:09 +08:00
上次朋友帮我爬了一万多条数据,我给他寄了两桶青啤一厂原浆(加运费 400 多),一箱大梭子蟹(加运费 400 多),后来第二年还送了他一箱山东大樱桃( 200 多),楼主自己算吧。
uyhyygyug1234
2019-03-31 09:36:35 +08:00
所以就是看有没有反爬!!拿多少钱,干多少事,哈哈
ThirdFlame
2019-03-31 09:44:32 +08:00
400 万 得爬到天昏地暗啊。1000 有点少吧。 *10 可以一干
luozic
2019-03-31 10:24:05 +08:00
免费搞吧,实际价格 10w+
cyssxt
2019-03-31 10:33:58 +08:00
白菜
falcon05
2019-03-31 10:34:19 +08:00
练手,就当电费。
dream7758522
2019-03-31 10:43:22 +08:00
如果爬虫很好写,写好跟你没关系了,那 1000 块钱可以。事逼的话太便宜
MonoLogueChi
2019-03-31 10:46:49 +08:00
如果网站没有任何反爬,不包售后,这个价格还算可以,另外凭这 VPS 的配置,能爬下来? 20G 的硬盘够用吗,有点担心
python30
2019-03-31 11:00:46 +08:00
楼主是新手而且有时间的话就接了吧。挣钱事小,主要有动力学到技术了
如果楼主是高手了。那就看楼上们的回答
largecat
2019-03-31 11:11:07 +08:00
这个小 vps 我觉得你还是得本地机器采然后再传上去,400 万也得折腾好久,看你带宽了,
ghostheaven
2019-03-31 11:11:07 +08:00
我都是按照自己的工资为基数*一个系数*估算工作量=总价格。系数>=3,保证外快比加班的收益高。
ophunter
2019-03-31 14:00:07 +08:00
插眼
winglight2016
2019-03-31 15:23:19 +08:00
lz,你放心吧,真正的需求远远不止这些。你报价应该基于你的单位时间价格*预计处理的消耗时间*1.5,外包起步价不应该低于 5k,不然,还不如把时间花在学习上。
brotherb
2019-03-31 23:55:11 +08:00
太少了。。。。
xiaobo944
2019-04-01 09:16:50 +08:00
“做技术的”思考方式始终是 “技术”,学习也是一种成本,需要时间的堆叠,各种试错的成果物。
mmixxia
2019-04-01 10:10:11 +08:00
是太少了,觉得至少也要*20
ml1344677
2019-04-01 11:43:31 +08:00
没反爬 你是觉得没反爬 还是你爬到一个你认为的量之后认定了没有反爬? 可能你完全就没有触发他的反爬机制
400 万条 这点钱 太少了
roberts
2019-04-08 23:00:38 +08:00
@wenbinwu 这么牛逼吗
wenbinwu
2019-04-09 00:11:50 +08:00
@roberts 这东西吧,给要求多的人做,你做的再好他也说你哪哪哪不行,还不给你钱
反正自己估计自己的价值,比如自己一小时值多少钱,根据对方给的价和自己对项目预估的时间算算
合算就干,不合算就算
maslow
2019-04-17 17:10:03 +08:00
1000 是肯定少了,如果简单的话,这个数据量也是 4-5k。 如果要过验证、反爬( ip,用户)就要单加钱了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/550383

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX