dt2vba
V2EX  ›  外包

最近谈了一个外包的活,爬一个网站,大概 400 万网页, 1000 元少不少?

  •  
  •   dt2vba · Mar 30, 2019 via Android · 6525 views
    This topic created in 2617 days ago, the information mentioned may be changed or developed.
    网站没有防止爬取数据的措施。

    客户要求,在他的 VPS 上安装 PostgreSQL,把爬取的数据存入该数据库。

    VPS 的配置,1 个处理器,1024MiB 内存,20GiB 固态硬盘。这样的配置能应付 2 亿条记录的单表吗?

    大佬们,说说你们的看法。非常期待你的建议。
    41 replies    2019-04-20 09:43:57 +08:00
    herozzm
        1
    herozzm  
       Mar 31, 2019 via iPhone
    四百万 碰上反派 ip 限制什么的你 1 万成本未必做的出来
    ,1000 简直和免费差不多吧,你还不如免费
    10Buns
        2
    10Buns  
       Mar 31, 2019   ❤️ 14
    这个价钱不如直接免费落个人情😂
    GM
        3
    GM  
       Mar 31, 2019
    少了,加个零还差不多。
    但是如果真的是没反爬措施的话,那也没啥技术难度,就当赚点零花钱吧。
    molvqingtai
        4
    molvqingtai  
       Mar 31, 2019 via Android
    同意二楼
    persimmon
        5
    persimmon  
       Mar 31, 2019
    Charging depends on impact on client.
    ghd700
        6
    ghd700  
       Mar 31, 2019
    没反扒,这跟捡钱没区别
    opengps
        7
    opengps  
       Mar 31, 2019
    电费够吗?
    thulof
        8
    thulof  
       Mar 31, 2019 via iPhone   ❤️ 6
    1000 太少了,想起了大学的时候缺钱,500 帮人爬过新浪微博,做的舆情分析系统,动用了 cookie 池,代理库,Redis 等,还是分布式的,自然语言处理,还有个管理的前端系统!总给才 500 !现在想想感觉自己好像是 sb,太单纯了
    wenbinwu
        9
    wenbinwu  
       Mar 31, 2019
    我做过一个爬 6 个类似网站的,只爬两个关键字,几百条,第一版赚了一万
    6260628
        10
    6260628  
       Mar 31, 2019
    看你水平了
    dangyuluo
        11
    dangyuluo  
       Mar 31, 2019
    @thulof 你学习到的技术远远超过 500,我觉得挺好的。
    smallX
        12
    smallX  
       Mar 31, 2019 via Android   ❤️ 12
    贱别人,贱己,贱行业...
    dsg001
        13
    dsg001  
       Mar 31, 2019
    如果没有防爬措施,而且在对方 vps 上运行,爬虫也就是写写规则的事,1k 还能接受

    至于数据单条数据 * 2 亿,恐怕怎么算硬盘都不够
    loading
        14
    loading  
       Mar 31, 2019
    @wenbinwu 几百条,手工 CtrlCV 我都觉得赚!
    murmur
        15
    murmur  
       Mar 31, 2019
    2e 数据 1000 快 真便宜
    kingfsen
        16
    kingfsen  
       Mar 31, 2019 via Android
    至少 4000 才干
    StarRED
        17
    StarRED  
       Mar 31, 2019 via Android
    软件工程师 和 硬件工程师 相比,软件开发在中国比较看轻
    V2exUser
        18
    V2exUser  
       Mar 31, 2019 via Android
    先看爬的东西是什么,违法不,不然
    akrlab
        19
    akrlab  
       Mar 31, 2019
    如果没有反扒,有一说一,不费吹灰之力,这钱也就挣了。
    不过,注意,1000 块现在能干毛线?连油钱都不够,还不如你免费做个人情,把对方变中介,以后有活让他推荐给你。
    Deathminip
        20
    Deathminip  
       Mar 31, 2019
    单核处理器? 带宽多少? 400 万页面,假如每个页面 2 秒钟处理速度,800 万秒 / 60 / 60 / 24 = ?
    FaustinaD
        21
    FaustinaD  
       Mar 31, 2019 via iPhone
    上次朋友帮我爬了一万多条数据,我给他寄了两桶青啤一厂原浆(加运费 400 多),一箱大梭子蟹(加运费 400 多),后来第二年还送了他一箱山东大樱桃( 200 多),楼主自己算吧。
    uyhyygyug1234
        22
    uyhyygyug1234  
       Mar 31, 2019
    所以就是看有没有反爬!!拿多少钱,干多少事,哈哈
    ThirdFlame
        23
    ThirdFlame  
       Mar 31, 2019
    400 万 得爬到天昏地暗啊。1000 有点少吧。 *10 可以一干
    luozic
        24
    luozic  
       Mar 31, 2019 via iPhone
    免费搞吧,实际价格 10w+
    cyssxt
        25
    cyssxt  
       Mar 31, 2019 via iPhone
    白菜
    GG668v26Fd55CP5W
        26
    GG668v26Fd55CP5W  
       Mar 31, 2019 via iPhone
    练手,就当电费。
    dream7758522
        27
    dream7758522  
       Mar 31, 2019 via Android
    如果爬虫很好写,写好跟你没关系了,那 1000 块钱可以。事逼的话太便宜
    MonoLogueChi
        28
    MonoLogueChi  
       Mar 31, 2019 via Android
    如果网站没有任何反爬,不包售后,这个价格还算可以,另外凭这 VPS 的配置,能爬下来? 20G 的硬盘够用吗,有点担心
    python30
        29
    python30  
       Mar 31, 2019
    楼主是新手而且有时间的话就接了吧。挣钱事小,主要有动力学到技术了
    如果楼主是高手了。那就看楼上们的回答
    largecat
        30
    largecat  
       Mar 31, 2019 via Android
    这个小 vps 我觉得你还是得本地机器采然后再传上去,400 万也得折腾好久,看你带宽了,
    ghostheaven
        31
    ghostheaven  
       Mar 31, 2019 via Android
    我都是按照自己的工资为基数*一个系数*估算工作量=总价格。系数>=3,保证外快比加班的收益高。
    ophunter
        32
    ophunter  
       Mar 31, 2019
    插眼
    winglight2016
        33
    winglight2016  
       Mar 31, 2019
    lz,你放心吧,真正的需求远远不止这些。你报价应该基于你的单位时间价格*预计处理的消耗时间*1.5,外包起步价不应该低于 5k,不然,还不如把时间花在学习上。
    brotherb
        34
    brotherb  
       Mar 31, 2019
    太少了。。。。
    xiaobo944
        35
    xiaobo944  
       Apr 1, 2019
    “做技术的”思考方式始终是 “技术”,学习也是一种成本,需要时间的堆叠,各种试错的成果物。
    1nakaELYBbsXbZxY
        36
    1nakaELYBbsXbZxY  
       Apr 1, 2019
    是太少了,觉得至少也要*20
    ml1344677
        37
    ml1344677  
       Apr 1, 2019
    没反爬 你是觉得没反爬 还是你爬到一个你认为的量之后认定了没有反爬? 可能你完全就没有触发他的反爬机制
    400 万条 这点钱 太少了
    roberts
        38
    roberts  
       Apr 8, 2019
    @wenbinwu 这么牛逼吗
    wenbinwu
        39
    wenbinwu  
       Apr 9, 2019
    @roberts 这东西吧,给要求多的人做,你做的再好他也说你哪哪哪不行,还不给你钱
    反正自己估计自己的价值,比如自己一小时值多少钱,根据对方给的价和自己对项目预估的时间算算
    合算就干,不合算就算
    maslow
        40
    maslow  
       Apr 17, 2019
    1000 是肯定少了,如果简单的话,这个数据量也是 4-5k。 如果要过验证、反爬( ip,用户)就要单加钱了。
    bigtotoro
        41
    bigtotoro  
       Apr 20, 2019
    兄弟,太低了, 不如拿时间学习。行业就是这样搞乱的
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1213 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 128ms · UTC 17:37 · PVG 01:37 · LAX 10:37 · JFK 13:37
    ♥ Do have faith in what you're doing.