V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GrahamCloud
V2EX  ›  推广

云爬虫 与 爬虫软件的认真探讨

  •  1
     
  •   GrahamCloud · 2017-05-03 13:38:38 +08:00 · 10927 次点击
    这是一个创建于 2787 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今年是造数云爬虫快速测试的一年

    如今爬虫方面的同行很多,例如 import.io 等等。V 站也看到了非常好的作品,比如 hicrawler 等等。

    学到很多。

    这个帖子希望和大家一起探讨,各种爬虫的应用场景以及利弊等等。

    第 1 条附言  ·  2017-05-10 10:24:31 +08:00
    评论区发现不错的产品,大家也可以关注一下: https://github.com/keenwon/antcolony
    65 条回复    2017-05-17 11:44:15 +08:00
    gamecreating
        1
    gamecreating  
       2017-05-03 13:39:46 +08:00   ❤️ 1
    自己定制爬虫 靠谱点 你这个只能给小白用...
    GrahamCloud
        2
    GrahamCloud  
    OP
       2017-05-03 13:55:35 +08:00
    @gamecreating 大型定制爬虫我们也做,但是很多同类网站要自己一个一个写确实不如 用我们网站(恩!)
    charli
        3
    charli  
       2017-05-03 14:57:53 +08:00   ❤️ 1
    “造数的采集节点遍布全国 7 个机房上百万个 IP ”
    真有怎么多 ip 么
    GrahamCloud
        4
    GrahamCloud  
    OP
       2017-05-03 15:15:34 +08:00
    @charli 这倒是真的,看得好细致啊
    gimp
        5
    gimp  
       2017-05-03 15:37:05 +08:00   ❤️ 1
    测试了一个网站,体验比几个月前好了不少
    GrahamCloud
        6
    GrahamCloud  
    OP
       2017-05-03 16:12:17 +08:00
    @gimp 感谢关注,想讨论各种爬虫用起来的感受。
    malusama
        7
    malusama  
       2017-05-03 16:16:59 +08:00   ❤️ 1
    我就觉得好贵啊……
    kangsgo
        8
    kangsgo  
       2017-05-03 16:28:35 +08:00   ❤️ 1
    爬虫失败,失败原因:链接超时
    LokiSharp
        9
    LokiSharp  
       2017-05-03 16:31:39 +08:00   ❤️ 1
    1 块钱 50 个页面太贵了吧
    jwenwang
        10
    jwenwang  
       2017-05-03 17:02:58 +08:00   ❤️ 1
    造数很好,就是还不能模拟登陆状态,有些网站不登陆情况下没法爬
    GrahamCloud
        11
    GrahamCloud  
    OP
       2017-05-03 17:23:03 +08:00
    @malusama
    @LokiSharp 价格也是一个要认真探讨的地方,目前可以给大家赠一些。
    GrahamCloud
        12
    GrahamCloud  
    OP
       2017-05-03 17:29:59 +08:00   ❤️ 1
    @kangsgo 求问具体情况
    kangsgo
        13
    kangsgo  
       2017-05-03 17:56:28 +08:00   ❤️ 1
    @GrahamCloud 好像是源网址不稳定,哎呀,最近老范这种错误,真是抱歉呀
    kchum
        14
    kchum  
       2017-05-03 18:24:33 +08:00   ❤️ 1
    试用了下,感觉还有很大进步空间
    要不然简单的爬虫真可以,另外 api 也是一个问题
    GrahamCloud
        15
    GrahamCloud  
    OP
       2017-05-03 18:44:44 +08:00
    @kchum 平时爬什么网站啊
    qwe321
        16
    qwe321  
       2017-05-03 18:51:42 +08:00   ❤️ 4
    @charli 有的,类似于 www.qgvps.com 这种提供了大量地区的拨号 VPS,可以自己搭建代理 IP
    GrahamCloud
        17
    GrahamCloud  
    OP
       2017-05-04 10:53:08 +08:00
    @qwe321 老铁 666
    BiggerLonger
        18
    BiggerLonger  
       2017-05-04 11:35:27 +08:00
    可以解決 wp protected iframe 的問題嗎
    acoder2013
        19
    acoder2013  
       2017-05-04 11:40:59 +08:00   ❤️ 1
    不支持 api?
    fuxkcsdn
        20
    fuxkcsdn  
       2017-05-04 11:53:54 +08:00
    @qwe321 感谢分享,之前在淘宝上联系过几个卖家,都只有 win 系统
    nicoljiang
        21
    nicoljiang  
       2017-05-04 12:48:27 +08:00   ❤️ 1
    缺乏场景,性价比极低。只能说,鼓励一下。
    GrahamCloud
        22
    GrahamCloud  
    OP
       2017-05-04 17:09:28 +08:00
    @acoder2013 这个也特别想听听大家怎么说,我们马上要推出一版。
    GrahamCloud
        23
    GrahamCloud  
    OP
       2017-05-04 17:09:38 +08:00
    @nicoljiang 感谢
    shenfu1991
        24
    shenfu1991  
       2017-05-04 17:15:10 +08:00   ❤️ 1
    问个喜感的问题:抓取彩票数据能不能预测彩票?(手动滑稽,没有其他意思。。。)
    wuhx
        25
    wuhx  
       2017-05-04 18:27:38 +08:00   ❤️ 1
    CloudMonad 走的是另外一个思路,还特地和造数比较了一下

    https://www.v2ex.com/t/356871
    GrahamCloud
        26
    GrahamCloud  
    OP
       2017-05-05 11:16:16 +08:00
    @shenfu1991 依据有限的数据啥都能预测,然而 有用没用,你懂得
    GrahamCloud
        27
    GrahamCloud  
    OP
       2017-05-05 11:16:35 +08:00
    @wuhx 学习!
    GrahamCloud
        28
    GrahamCloud  
    OP
       2017-05-05 11:19:54 +08:00
    @wuhx 求联系,微信:Zaoshuio
    Moker
        29
    Moker  
       2017-05-05 11:45:33 +08:00   ❤️ 1
    为什么我觉得 LZ 是在 SEO 每篇帖子都带不一样描述指向同样的链接?
    GrahamCloud
        30
    GrahamCloud  
    OP
       2017-05-05 13:29:01 +08:00
    @Moker SEO 不主要,主要的是产品内容不能光靠我们自己想,得不停增加大家交流的空间。
    15015613
        31
    15015613  
       2017-05-06 10:23:32 +08:00   ❤️ 2
    @GrahamCloud
    问题太多了,直接没办法用。

    举个例子吧。
    http://book.sfacg.com/
    抓取每日首页推荐情况。
    之前便有人反映过,页面的弹出层无法点击去除,现在这个问题还在,没有改善。
    不过这个问题不太影响本次抓取,便不说了。

    先选取首页的轮播图,只能得到图片的 url 和小说页面的 url,得不到小说的名称,但原始数据里头是含有小说名称的。
    ```
    <img data-original="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" alt="无敌的我选择种田" src="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" style="display: inline;">
    ```
    然后下面的 人气风向标、最近有意思的新书,由于有重叠层,选取的数据有错误,基本不能用。

    仅仅最后 封面推荐爬取的还算符合要求。

    再打开小说详情页,不支持异步加载,评论数量完全无法抓取。

    还有选取的数据不支持后期处理,不支持分组。
    不支持图片的爬取下载,只能爬取文字资料。

    就这服务水平、服务质量也好意思大言不惭的说,“所有你需要的功能”、“最好的云爬虫工具”。

    价格 1 元 50 个页面,太贵了,这样的质量也好意思收费这么贵?

    对了还不支持登录爬取,这点忘了。

    @Moker
    我也是这样觉得,看他们隔两天上来发一次广告,真是烦人的很。
    15015613
        32
    15015613  
       2017-05-06 10:37:41 +08:00
    @GrahamCloud
    总体来说,和刚出来时没有多少提高,刚刚出来功能不完善可以理解,但过了这么久还没有提高,那就太……
    GrahamCloud
        33
    GrahamCloud  
    OP
       2017-05-08 10:31:58 +08:00
    @15015613 评论很中肯,说的很对,感谢花这么多时间整理意见。我们会针对你的问题做一些改进。定价 我个人也觉得高了,尝试阶段~
    求加 微信:Zaoshuio
    buseni
        34
    buseni  
       2017-05-08 11:26:47 +08:00   ❤️ 1
    牛逼,我看国外有个东西,你随便给一个地址,人家就能给你爬下来
    dovis
        35
    dovis  
       2017-05-08 11:41:31 +08:00
    @buseni 比如?
    GrahamCloud
        36
    GrahamCloud  
    OP
       2017-05-08 12:50:31 +08:00
    @buseni 说的是 import io 吧
    GrahamCloud
        37
    GrahamCloud  
    OP
       2017-05-08 12:51:05 +08:00
    @buseni 怎么看到的
    tonyaiken
        38
    tonyaiken  
       2017-05-08 13:31:53 +08:00   ❤️ 1
    开的同类帖子太多,广告嫌疑
    GrahamCloud
        39
    GrahamCloud  
    OP
       2017-05-08 14:11:24 +08:00
    @tonyaiken 这个帖子不是广告,同类产品 都列出来 求探讨了。
    liuxu
        40
    liuxu  
       2017-05-08 14:15:08 +08:00   ❤️ 1
    不是广告为啥要顶置。。
    GrahamCloud
        41
    GrahamCloud  
    OP
       2017-05-08 14:35:24 +08:00
    @liuxu 不置顶哪有人聊啊
    GrahamCloud
        42
    GrahamCloud  
    OP
       2017-05-08 14:35:38 +08:00
    @liuxu 这么小众的工具
    liuxu
        43
    liuxu  
       2017-05-08 15:02:39 +08:00   ❤️ 1
    @GrahamCloud 那你干嘛把你们网站首页放帖子第一行。。
    wujunze
        44
    wujunze  
       2017-05-08 15:06:24 +08:00   ❤️ 1
    比之前体验好了很多 继续加油💪
    GrahamCloud
        45
    GrahamCloud  
    OP
       2017-05-08 15:14:40 +08:00
    @liuxu 开宗明义嘛,实际点进来的又没几个……先来用用看吧,不要讨论细枝末节的了
    GrahamCloud
        46
    GrahamCloud  
    OP
       2017-05-08 15:15:55 +08:00
    @liuxu v 站 给出的意见,价值还是远大于各种点击的。
    liuxu
        47
    liuxu  
       2017-05-08 15:32:40 +08:00   ❤️ 1
    @GrahamCloud
    我倒是差一个爬虫管理平台,也没时间去写。
    我有一些小脚本不好管理,例如登录之后签到,ss 帐号状态更新之类的,每一个功能虽小,但是数量多。。

    你们的功能可不可以建立一个组,每个组管理一些实例,每个实例可以登录,抓数据,也可以帮忙签到。。
    GrahamCloud
        48
    GrahamCloud  
    OP
       2017-05-08 15:56:20 +08:00
    @liuxu 求看一看,求加微信:Zaoshuio
    GrahamCloud
        49
    GrahamCloud  
    OP
       2017-05-08 15:57:07 +08:00
    @wujunze 其实我们知道 问题还多着呢 @_@
    Moker
        50
    Moker  
       2017-05-08 16:13:46 +08:00
    @shenfu1991 真的不能,如果是双色球这种的,走势图本来就是公开的,本来就是随机根本没用。另外竞彩的话,有一定可能,但是数据要全要全,当然概率也很低很低,未知因素太多,另外即使猜中,赔率早就被庄家做好,收益低风险大。
    am0zing
        51
    am0zing  
       2017-05-08 16:43:41 +08:00   ❤️ 2
    到了安利一波的时候了,你猜这是什么爬虫? https://github.com/keenwon/antcolony
    GrahamCloud
        52
    GrahamCloud  
    OP
       2017-05-08 17:47:10 +08:00
    @liuxu 比较忙不好意思没有及时回复,以后有问题再加我。
    GrahamCloud
        53
    GrahamCloud  
    OP
       2017-05-08 17:56:51 +08:00
    @am0zing 自己开发的站点么?
    am0zing
        54
    am0zing  
       2017-05-08 22:02:05 +08:00   ❤️ 1
    @GrahamCloud

    是的,站点已经停了,因为数据太多放不下了。但是爬虫是可以用的
    wujunze
        55
    wujunze  
       2017-05-09 13:59:30 +08:00
    @am0zing 感谢分享 很赞的程序
    GrahamCloud
        56
    GrahamCloud  
    OP
       2017-05-10 10:23:56 +08:00   ❤️ 1
    @wujunze 继续赞一下这个,挂一个 append。
    XiaoFaye
        57
    XiaoFaye  
       2017-05-10 11:40:23 +08:00   ❤️ 1
    用造数爬造数是什么后果?
    GrahamCloud
        58
    GrahamCloud  
    OP
       2017-05-10 14:06:27 +08:00
    @XiaoFaye 好问题,可惜爬不了。
    GrahamCloud
        59
    GrahamCloud  
    OP
       2017-05-10 14:06:44 +08:00
    @XiaoFaye 可以大胆勇敢热情的尝试一下。
    GrahamCloud
        60
    GrahamCloud  
    OP
       2017-05-10 16:33:24 +08:00   ❤️ 1
    @am0zing 给你 挂在 apend 上面了,很 nice
    am0zing
        61
    am0zing  
       2017-05-10 16:35:35 +08:00   ❤️ 1
    @GrahamCloud O(∩_∩)O
    GrahamCloud
        62
    GrahamCloud  
    OP
       2017-05-12 11:11:39 +08:00
    @am0zing 有没有 增加一点访问
    am0zing
        63
    am0zing  
       2017-05-13 16:33:22 +08:00   ❤️ 1
    @GrahamCloud

    确实增加了!😁
    xutaoding
        64
    xutaoding  
       2017-05-16 17:09:10 +08:00   ❤️ 1
    GrahamCloud, 看了你们的造数爬虫网站, 在这里请教一个技术问题: 左键点击表示获取与该元素类似的其他节点元素的文本,这个是基于什么算法或思路来实现的呢?
    GrahamCloud
        65
    GrahamCloud  
    OP
       2017-05-17 11:44:15 +08:00
    @xutaoding 欢迎 加微信聊这个 :Zaoshuio
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3149 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 12:44 · PVG 20:44 · LAX 04:44 · JFK 07:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.