V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ihuotui
V2EX  ›  程序员

爬虫实践基于 webmagic,目标用 5 分钟就可以爬一个网站(你懂的)

  •  
  •   ihuotui · 2017-01-12 17:20:29 +08:00 · 4437 次点击
    这是一个创建于 2662 天前的主题,其中的信息可能已经有所发展或是发生改变。
    爬虫实践基于 webmagic ,提供一个例子用于层次化主题帖子和二级帖子及内容。

    webmagic 介绍 https://www.oschina.net/p/webmagic

    5 分钟实现爬 oschina 帖子 https://git.oschina.net/ihuotui/webmagic-sample

    目标

    1 遍历主题列表

    2 读取主题详情页,获取目标文件或者图片或者内容

    3 (可选)读取主题详情页下一页,获取目标文件或者图片

    4 (可选)下载目标文件

    说明,使用 redis 作为进度保存。

    基于以上目标

    1 写了一个抽象类 AbstractPageAndSubPageProcessor 作为遍历抽象,子类集成后,实现一些逻辑就可以运行。

    2 使用 DownloadUrlFileThread 来下载具体文件。

    3 测试方法运行 test 目录的 AbstractPageTest
    第 1 条附言  ·  2017-01-12 19:20:35 +08:00
    不过觉得框架的处理页面只能单个 processor ,应该设计成责任链,然后可以根据不同的页面写不同的 processor 。
    9 条回复    2017-01-13 00:49:42 +08:00
    spice630
        1
    spice630  
       2017-01-12 18:09:51 +08:00
    臃肿的 java 推荐你学下 golang
    https://github.com/songtianyi/laosj
    ihuotui
        2
    ihuotui  
    OP
       2017-01-12 19:04:56 +08:00
    @spice630 差不多,工作主要语言是 java 所以只能用 java 写了。
    jurant
        3
    jurant  
       2017-01-12 19:22:12 +08:00
    唉 java 看一半就没学了.
    luban
        4
    luban  
       2017-01-12 19:26:20 +08:00
    webmagic 设计还是很好的
    zgqq
        5
    zgqq  
       2017-01-12 19:55:04 +08:00
    @spice630 写过一个跟你这个很像的,也是抓黄图的,也是用 golang 写的,然后又跳坑了,用回 java
    spice630
        6
    spice630  
       2017-01-12 21:18:26 +08:00
    @zgqq 为啥啊兄弟,我那个是轻量级的,还有重量级的幽灵蛛,不过我没用过 不好评价。
    golang 好维护。
    zingl
        7
    zingl  
       2017-01-12 23:53:56 +08:00
    5 分钟可以开始爬一个网站
    zgqq
        8
    zgqq  
       2017-01-13 00:04:53 +08:00 via Android
    @spice630 国内还是 java 用得多,另外 golang 的异常处理让我感觉不习惯
    ihuotui
        9
    ihuotui  
    OP
       2017-01-13 00:49:42 +08:00 via iPhone
    @zingl 嘿嘿
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2692 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 10:57 · PVG 18:57 · LAX 03:57 · JFK 06:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.