V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
sohoer
V2EX  ›  分享创造

做了两年多的一个项目,第一次邀请测试,希望对您有用

  •  
  •   sohoer ·
    speed · 2013-04-09 13:35:34 +08:00 · 15268 次点击
    这是一个创建于 4243 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前没想过把他做成产品只是按照自己的实际需求做,断断续续用业余时间做了快两年,为了完成这个项目在去年12月断然离职到现在全职做了4个月,
    现在总算是可以晒出来给大家用用了。

    他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
    鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
    鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
    通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。

    鸟巢采集器访问地址:
    http://www.newcrawler.com/

    鸟巢采集器能做些什么:
    采集数据、博客迁移、友情链接检查、定向采集实现垂直搜索 等等。

    鸟巢采集器相比其它采集器的优势:
    1、平台无关,可以在任何系统上运行如:Linux、Windows ...
    2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
    3、Raspberry Pi 也是支持的。
    4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
    5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
    6、使用WEB的管理方式,可以在任何终端上操作。
    总之最大的优势是WEB版平台无关,其它核心功能也都有。


    目前唯一一个在用鸟巢采集器抓取数据的网站:
    http://www.shishibi.com/

    如果您只想看看效果请使用下面的账号密码登录
    test
    test

    如果您想试用请留下邮箱,我将给您发送邀请码

    PS: 正式版发布后会考虑收费但肯定会至少有1个月的试用期,试用期过后后端应用还是可以正常使用的,只是不可以通过WEB端进行可视化管理,对于邀请注册的用户在正式版发布后至少可以多免费使用1年。
    提前声明英文版还没找专业人士翻译目前是直接GOOGLE的。
    鸟巢采集器还有一个爬虫分享计划,试想一下每抓取一个页面换一个IP是不是很爽呢,只是目前尚未启动 ^^
    第 1 条附言  ·  2013-04-09 19:19:35 +08:00
    不知道有没有人发布应用,附上安装说明

    1.下载GAE发布工具 “windows-gae-deploy-tools.zip” 与采集器应用包 “soso-crawler-gae.zip”
    http://pan.baidu.com/share/link?shareid=359591&uk=539995500
    http://pan.baidu.com/share/link?shareid=366793&uk=539995500

    2.解压 windows-gae-deploy-tools.zip
    解压 soso-crawler-gae.zip 到发布工具的war目录,war目录结构如下:
    -war
    -WEB-INF
    -index.html
    -favicon.ico
    ....

    2.修改project-app-deploy.xml配置文件,
    your.gae.app.id #Google App Engine 的App Id
    your.gae.account #Google App Engine 的账户
    your.gae.account.password #Google App Engine 的账户密码

    3.双击运行 deploy.bat 进行发布

    4.发布成功后接入你的采集器应用到WEB端
    登录newcrawler.com在
    系统设置 > 采集器管理
    填上你的刚刚发布的应用地址和名称点添加,成功后你就可以在WEB端管理你的采集器应用了
    第 2 条附言  ·  2013-04-09 20:28:22 +08:00
    还需要注意的一点,GAE应用需要Datastore Indexes创建好之后才能使用,大家可以在GAE的控制台查看Datastore Indexes 状态
    谢谢刚刚反馈的用户。
    149 条回复    2015-04-25 00:43:13 +08:00
    1  2  
    niko
        1
    niko  
       2013-04-09 14:03:38 +08:00
    貌似很NB的样子,给个邀请码吧, [email protected]
    ostrichmyself
        2
    ostrichmyself  
       2013-04-09 14:13:14 +08:00
    [email protected]

    看好你~
    Ziya
        3
    Ziya  
       2013-04-09 14:13:53 +08:00
    邀请下看看吧
    Ziya.TLF#Gmail.com
    sohoer
        4
    sohoer  
    OP
       2013-04-09 14:20:52 +08:00
    @Ziya
    @ostrichmyself
    @niko
    已发送,注意查收,谢谢支持!
    lj0014
        5
    lj0014  
       2013-04-09 15:17:44 +08:00
    来试用下,曾用scrapy爬过数据

    lj0014#gmail.com
    jerry
        6
    jerry  
       2013-04-09 15:25:51 +08:00
    嗯,有需求,来个邀请码试试嘛 lxb429#gmail.com
    Isight
        7
    Isight  
       2013-04-09 15:27:20 +08:00
    这个跨平台不错,求测试 zbq#live.cn
    iiduce
        8
    iiduce  
       2013-04-09 15:35:45 +08:00
    这个感兴趣 iiduce#163.com
    andybest
        9
    andybest  
       2013-04-09 15:39:41 +08:00
    求邀请,已注册了: hankfo#gmail.com
    jackyzy823
        10
    jackyzy823  
       2013-04-09 15:41:45 +08:00 via iPhone
    jackyzy823#gmail.com 感兴趣→_→
    nsxuan
        11
    nsxuan  
       2013-04-09 15:41:47 +08:00 via Android
    juven
        12
    juven  
       2013-04-09 15:47:07 +08:00
    感兴趣,谢LZ。juven.lab # gmail.com
    sohoer
        13
    sohoer  
    OP
       2013-04-09 15:48:19 +08:00
    @juven
    @nsxuan
    @jackyzy823
    @andybest
    @iiduce
    @Isight
    @jerry
    @lj0014

    已发送,注意查收,谢谢支持!
    binux
        14
    binux  
       2013-04-09 15:48:48 +08:00   ❤️ 1
    test账号试用了一下,感觉太复杂了,太流程化了

    贴一个我们的爬虫系统图,用程序化脚本控制
    sohoer
        15
    sohoer  
    OP
       2013-04-09 15:54:17 +08:00
    @binux 你这个不是通用的吧,自己定制是可以做到最简单的效果,如果每次都定制这个工作量就大了
    Mrlee
        16
    Mrlee  
       2013-04-09 15:59:15 +08:00
    Gmail: @Bestmrlee
    sevenday
        17
    sevenday  
       2013-04-09 15:59:20 +08:00
    麻烦发个邀请码,多谢! mustnot # gmail.com
    andybest
        18
    andybest  
       2013-04-09 16:36:30 +08:00
    @sohoer 是不是给账户默认提供一个环境?
    现在要自己有GAE,并且安装3份程序到自己GAE,自己机器还要装发布工具。。。。

    这个测试成本也太高了。。想简单看下功能都不行。。。。
    lj0014
        19
    lj0014  
       2013-04-09 16:36:39 +08:00
    试用了下,没整成功,总是报错。
    markmx
        20
    markmx  
       2013-04-09 16:38:03 +08:00
    imanbian#gmail.com
    求邀请码!
    andybest
        21
    andybest  
       2013-04-09 16:44:50 +08:00
    应用安装第一次安装没有成功,
    现在现在再点就是“请升级您的账户”了。
    sohoer
        22
    sohoer  
    OP
       2013-04-09 16:48:09 +08:00
    @andybest
    要想用GAE、APPFOG的免费空间是麻烦点,需要自己手动部署,为了方便部署我提供了一个GAE的发布工具。
    也可以部署在本地那样也需要做端口映射让外网可以访问

    @lj0014 刚刚有人使用了GAE在线安装,这个功能其实已经做好了,只是需要我提供服务器来发布你的GAE应用,只是目前还没有提供这台服务器。所以我暂时把它这功能关了,

    现在需要您在本地发布,我有提供一个GAE发布工具,按照Readme.txt中步骤应该可以发布成功
    sohoer
        23
    sohoer  
    OP
       2013-04-09 16:48:55 +08:00
    @andybest 原来是你,不好意思我刚刚把这功能关了
    andybest
        24
    andybest  
       2013-04-09 16:51:03 +08:00
    @sohoer 至少提供一个默认的“采集器”吧
    说实话作为一个WEB项目让人安装程序有点不应该

    另外有测试成功的吗?发布个教程呗。。。
    sohoer
        25
    sohoer  
    OP
       2013-04-09 16:51:29 +08:00
    @Mrlee
    @sevenday
    @markmx

    已发送,注意查收,谢谢支持!
    sohoer
        26
    sohoer  
    OP
       2013-04-09 16:52:55 +08:00
    @andybest
    "Google App Engine 发布工具" 用这个工具无法发布GAE应用吗? 这个工具我测试过的呀!
    lj0014
        27
    lj0014  
       2013-04-09 16:53:30 +08:00
    @sohoer 我就是刚用了GAE在线安装
    andybest
        28
    andybest  
       2013-04-09 16:54:57 +08:00
    @sohoer 恩,我觉得你这个页面框架做的不错,比如异常堆栈的输出/显示方法,安装过程信息的同步输出这些,所以觉得东西做的应该值得看
    sohoer
        29
    sohoer  
    OP
       2013-04-09 16:56:37 +08:00
    @lj0014
    @andybest
    你们下载"Google App Engine 发布工具"这个工具发布吧!
    sohoer
        30
    sohoer  
    OP
       2013-04-09 16:57:05 +08:00
    @andybest 全是HTML+ajax
    sohoer
        31
    sohoer  
    OP
       2013-04-09 16:57:35 +08:00
    @andybest 目前是部署在GAE上的
    sohoer
        32
    sohoer  
    OP
       2013-04-09 16:59:38 +08:00
    @andybest 我一定会努力把功能都做好的,谢谢你
    wingoo
        33
    wingoo  
       2013-04-09 17:07:07 +08:00
    地址打不开了?
    csx162
        34
    csx162  
       2013-04-09 17:10:46 +08:00
    支持一下,以前都用火车,想试试这个,求邀请
    sohoer
        35
    sohoer  
    OP
       2013-04-09 17:11:34 +08:00
    @wingoo 看来WEB端部署在GAE不是长久之计
    sohoer
        36
    sohoer  
    OP
       2013-04-09 17:12:56 +08:00
    @csx162
    67a64bbf656901c5
    l0wkey
        37
    l0wkey  
       2013-04-09 17:14:36 +08:00
    zzm110112@163.
    xiiing
        38
    xiiing  
       2013-04-09 17:17:00 +08:00
    可不可以导出腾讯微博?
    sohoer
        39
    sohoer  
    OP
       2013-04-09 17:19:18 +08:00
    @xiiing 能给个微博地址吗,我试抓一下
    inroading
        40
    inroading  
       2013-04-09 17:27:25 +08:00
    挂上VPN就可以打开了
    求邀请 inroading#gmail.com
    sohoer
        41
    sohoer  
    OP
       2013-04-09 17:31:50 +08:00
    @xiiing
    刚刚看了下腾讯微博的数据,不是ajax的,只要不是ajax的100%是可抓取的,ajax的会有些不确定性,得看javascript解析引擎

    @l0wkey
    @inroading
    已发送,注意查收,谢谢支持!
    drupal
        42
    drupal  
       2013-04-09 17:45:54 +08:00
    希望能够测试drupal#sina.cn
    Wy4q3489O1z996QO
        43
    Wy4q3489O1z996QO  
       2013-04-09 17:51:40 +08:00
    希望能够测试一下 romotc#@#gmail .dot. com
    kamehamehon
        44
    kamehamehon  
       2013-04-09 18:08:15 +08:00
    @sohoer 求一个联系方式
    workaholic
        45
    workaholic  
       2013-04-09 18:10:59 +08:00
    关注你很久了哥们, ^_^ , v2sker # gmail.com
    sohoer
        46
    sohoer  
    OP
       2013-04-09 18:13:21 +08:00
    @kamehamehon
    其实收了邀请码的都可以联系到我的


    @drupal
    @romotc
    @workaholic
    已发送,注意查收,谢谢支持!
    workaholic
        47
    workaholic  
       2013-04-09 18:26:35 +08:00
    @sohoer 不能添加爬虫池,提示"错误:需要升级您的账户"
    durrrr
        48
    durrrr  
       2013-04-09 18:30:54 +08:00 via Android
    求邀请
    ihaku4#gmail.com
    sohoer
        49
    sohoer  
    OP
       2013-04-09 18:32:19 +08:00
    @workaholic 爬虫池还没有开放,添加一个采集器应用就可以爬数据了.
    AnyOfYou
        50
    AnyOfYou  
       2013-04-09 18:44:30 +08:00
    看上去很棒!
    anyofyou(AT)gmail.com
    nan0kai
        51
    nan0kai  
       2013-04-09 19:12:11 +08:00
    @sohoer
    感觉潜力相当大。求邀请码帮你测试试用下
    [email protected]
    谢谢
    binux
        52
    binux  
       2013-04-09 19:48:19 +08:00
    @sohoer 当然是通用的了,你需要为每个站加规则,而我通过代码表达规则
    sohoer
        53
    sohoer  
    OP
       2013-04-09 19:56:33 +08:00
    @binux 好吧是不是可以把他当成一个DOS 一个WIN的区别
    sohoer
        54
    sohoer  
    OP
       2013-04-09 19:58:33 +08:00
    @binux 不过确实还不够简单,到时我会考虑将一些不常用的选项做为高级选项隐藏起来
    thedevil5032
        55
    thedevil5032  
       2013-04-09 19:59:20 +08:00 via iPad
    @binux 可以弱弱地问问你的截图里是个什么软件吗?
    binux
        56
    binux  
       2013-04-09 20:00:46 +08:00
    @sohoer 用代码更灵活,任何页面都可以爬,任何情况都能适配,要新功能import就可以
    甚至可以在框架内实现一套你的导出规则,当然要有一点代码基础。。不过用的是python还好。。
    jeansfish
        57
    jeansfish  
       2013-04-09 20:00:55 +08:00
    jeansfish#####outlook.com
    来一个看看
    binux
        58
    binux  
       2013-04-09 20:01:11 +08:00
    @thedevil5032 我们自己开发的爬虫引擎
    kaifazhe
        59
    kaifazhe  
       2013-04-09 20:05:17 +08:00
    admin#html5点cn

    发一个,谢谢
    sohoer
        60
    sohoer  
    OP
       2013-04-09 20:10:01 +08:00
    @binux 其实我的也很灵活的,有抓取插件,javascript的支持就是通过插件实现的,其实越灵活变相的就越复杂,我发现我这工具目前都无法面向一般的大众用户的。
    adspe
        61
    adspe  
       2013-04-09 20:11:33 +08:00
    不错
    来一个
    [email protected]
    lushnis
        62
    lushnis  
       2013-04-09 20:25:14 +08:00
    求邀請 lushnis[AT]gmail.com
    huangzxx
        63
    huangzxx  
       2013-04-09 20:29:08 +08:00
    zhongxin.huang[at]gmail.com 谢谢。。
    sohoer
        64
    sohoer  
    OP
       2013-04-09 20:30:33 +08:00
    以上用户邀请码都以发送如果没有收到请与我联系,谢谢支持!
    anyalso
        65
    anyalso  
       2013-04-09 22:22:32 +08:00
    我也求一个 anyalso[at]yahoo.com.cn,谢谢
    pengdu
        66
    pengdu  
       2013-04-09 23:30:55 +08:00
    赞楼主!
    python有个scrapy,做爬虫很好。之前小弄了个快播电影站(http://17sotv.com/),就是用的scrapy,从页面采集,解析,入库一条龙服务。
    yuhuofeihe
        67
    yuhuofeihe  
       2013-04-09 23:33:27 +08:00
    sohoer
        68
    sohoer  
    OP
       2013-04-09 23:45:12 +08:00
    @yuhuofeihe
    @anyalso
    已发送,注意查收,谢谢支持!

    @pengdu
    谢谢!其实我也有很多站想做的。
    Yannis1990
        69
    Yannis1990  
       2013-04-10 00:10:11 +08:00
    求邀请,求测试.... excellentbright#gmail.com
    TigerS
        70
    TigerS  
       2013-04-10 01:46:37 +08:00
    给一个邀请吧,z.jiang##queensu.ca
    ksky
        71
    ksky  
       2013-04-10 07:13:14 +08:00 via iPhone
    要个邀请 hebine#me.com
    guokb
        72
    guokb  
       2013-04-10 08:51:13 +08:00
    @sohoer 同球個邀請碼 guokb0922[at]126.com 謝謝!
    parkman
        73
    parkman  
       2013-04-10 09:51:41 +08:00
    求邀请码 [email protected]
    zetttt
        74
    zetttt  
       2013-04-10 10:11:08 +08:00
    同求邀请码 [email protected]
    haker
        75
    haker  
       2013-04-10 11:15:43 +08:00
    求邀请码 myhaker[at]gmail.com
    jasla
        76
    jasla  
       2013-04-10 11:41:27 +08:00
    langqixu[at]gmail.com
    感谢。
    amirfish
        77
    amirfish  
       2013-04-10 11:58:21 +08:00
    求邀请码,谢谢!
    amirfish.cn[at]gmail.com
    hdinfo
        78
    hdinfo  
       2013-04-10 12:04:07 +08:00
    球邀请码,谢谢
    [email protected]
    sohoer
        79
    sohoer  
    OP
       2013-04-10 13:13:30 +08:00   ❤️ 1
    @TigerS
    @ksky
    @guokb
    @parkman
    @zetttt
    @haker
    @jasla
    @amirfish
    @hdinfo

    邀请码已发,谢谢支持!
    xiiing
        80
    xiiing  
       2013-04-10 16:50:38 +08:00
    @sohoer t.qq.com/sailingyang
    谢谢,一直想导出来
    Tinet
        81
    Tinet  
       2013-04-10 17:52:23 +08:00
    tinetkiller#gmail.com
    给我也发一个吧
    sohoer
        82
    sohoer  
    OP
       2013-04-10 20:44:28 +08:00
    @xiiing
    目前只提供抓取与通过接口发布,还没有数据导出的功能。

    @Tinet
    邀请码已发,谢谢支持!
    madfrog1984
        83
    madfrog1984  
       2013-04-10 20:51:28 +08:00
    madfrog1984#gmail.coom 求邀请码
    firsthym
        84
    firsthym  
       2013-04-10 22:09:32 +08:00
    penglilonghc
        85
    penglilonghc  
       2013-04-11 06:08:38 +08:00
    penglilonghc#gmail.com 求缴请,求测试
    molinxx
        86
    molinxx  
       2013-04-11 06:11:23 +08:00 via iPhone
    uoryon
        87
    uoryon  
       2013-04-11 07:46:09 +08:00
    [email protected]
    求邀請。
    dengyunxuan
        88
    dengyunxuan  
       2013-04-11 10:15:33 +08:00
    dengyunxuan#qq.com 求邀请!!!
    DXpro
        89
    DXpro  
       2013-04-11 11:09:37 +08:00
    [email protected] 求邀请!!!
    welsmann
        90
    welsmann  
       2013-04-11 11:20:49 +08:00
    [email protected],求邀请!!!
    sohoer
        91
    sohoer  
    OP
       2013-04-11 13:19:53 +08:00
    @madfrog1984
    @firsthym
    @penglilonghc
    @molinxx
    @uoryon
    @dengyunxuan
    @DXpro
    @welsmann

    邀请码已发,谢谢支持!
    solo7net
        92
    solo7net  
       2013-04-11 13:42:46 +08:00
    我来试用
    solo.7net 爱它 gmail.com
    creeper
        93
    creeper  
       2013-04-11 17:15:24 +08:00
    求邀请码,谢谢了~ [email protected]
    XDA
        94
    XDA  
       2013-04-11 17:42:02 +08:00
    码子在哪里? [email protected]
    Tianpu
        95
    Tianpu  
       2013-04-11 22:23:31 +08:00 via iPhone
    dull # live.com

    谢谢
    glongzh
        96
    glongzh  
       2013-04-11 22:48:53 +08:00 via Android
    很感兴趣!

    glongzh#126.com

    谢谢!
    lin
        97
    lin  
       2013-04-11 23:06:40 +08:00
    khb_gl
        98
    khb_gl  
       2013-04-12 00:01:38 +08:00
    [email protected] 可以很强大。 求白名单适用
    koon_kai
        99
    koon_kai  
       2013-04-12 00:25:17 +08:00 via Android
    [email protected] 求邀请使用
    yearsaaaa
        100
    yearsaaaa  
       2013-04-12 16:00:27 +08:00
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5075 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 09:38 · PVG 17:38 · LAX 01:38 · JFK 04:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.