V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
puorg
V2EX  ›  程序员

自己开发的开源百度网盘爬虫程序

  •  1
     
  •   puorg ·
    callmelanmao · 2016-11-21 16:51:38 +08:00 · 4711 次点击
    这是一个创建于 2924 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 node.js 历时一个星期左右开发的这个项目,自我感觉还不错,有兴趣的以前交流下 nodejs 开发经验

    github 地址: https://github.com/callmelanmao/yunshare

    在线百度网盘搜索地址:百度网盘搜索

    在 V2EX 的另外一个节点也发了帖子,都没有什么人一起交流,希望管理员不要删帖,谢谢。

    21 条回复    2016-11-30 18:45:29 +08:00
    xiaoyu9527
        1
    xiaoyu9527  
       2016-11-21 16:53:57 +08:00
    速度很快呀
    araraloren
        2
    araraloren  
       2016-11-21 17:20:44 +08:00
    ~~ 看起来还不错的样子,不过这个东西好多
    crab
        3
    crab  
       2016-11-21 17:23:31 +08:00
    搜索结果怎么偏离那么多啊。
    搜索:当我想你的时候.MP3
    puorg
        4
    puorg  
    OP
       2016-11-21 17:32:43 +08:00   ❤️ 1
    @crab 你试试搜索音乐, elasticsearch 太占服务器内存了,我只索引了 title 字段,使用的是 ik 分词插件,还没做优化
    tumbzzc
        5
    tumbzzc  
       2016-11-21 17:40:26 +08:00
    a-ads.com 的广告单价高吗?
    puorg
        6
    puorg  
    OP
       2016-11-21 17:45:35 +08:00
    @tumbzzc 很低的,服务器费用是赚不回来了
    letitbesqzr
        7
    letitbesqzr  
       2016-11-21 17:52:37 +08:00
    elasticsearch 快是快... 实在太耗内存了.. 放在云服务器的话 开销太大
    klxq15
        8
    klxq15  
       2016-11-21 18:25:14 +08:00 via Android
    爬一会就会被百度封 ip ,你是怎么解决的
    puorg
        9
    puorg  
    OP
       2016-11-21 18:55:23 +08:00
    @klxq15 休眠几秒
    klxq15
        10
    klxq15  
       2016-11-21 19:25:55 +08:00 via Android
    @puorg 具体是几秒呢?
    huangfs
        11
    huangfs  
       2016-11-21 22:30:28 +08:00
    elasticsearch 几台机器啊
    eoo
        12
    eoo  
       2016-11-21 23:48:01 +08:00 via Android
    挂了?
    glogo
        13
    glogo  
       2016-11-22 00:24:14 +08:00
    一直好奇这种站的基本原理是啥,楼主能否分享下?
    regent
        14
    regent  
       2016-11-22 00:54:29 +08:00
    链接有效性会不会定期验证?
    cxydhd
        15
    cxydhd  
       2016-11-22 10:33:00 +08:00
    对这个项目挺感兴趣的,你的服务器内存有多大?第一次接触 nodejs ,你开源的源码的搜索入口是在哪个文件里?
    puorg
        16
    puorg  
    OP
       2016-11-22 10:35:00 +08:00
    @cxydhd mongodb 保存在本地, elasticsearch 服务器 3g 内存,这个项目不带 web 界面的,只有爬虫和建立 elasticsearch 索引部分
    cxydhd
        17
    cxydhd  
       2016-11-22 11:12:54 +08:00
    @puorg 哦哦,我前端知识比较小白,那如果我加个界面测试,怎么调用这个项目的
    puorg
        18
    puorg  
    OP
       2016-11-22 15:17:20 +08:00
    @cxydhd 现在这个文档写的比较粗糙,我过几天再写个更详细的, web 端调用你只要看 elasticsearch 的 mapping 文件就行了,在 data 文件夹下面,前提是你已经正确安装这个项目,并且建立好索引
    enenaaa
        19
    enenaaa  
       2016-11-22 15:29:53 +08:00
    elasticsearch 搜索速度真是快啊。
    楼主现在数据是多大量级的。我一个 10w+的数据用 redis+mysql 感觉太慢了。 当然我服务器比较渣, 不太敢上 elasticsearch
    puorg
        20
    puorg  
    OP
       2016-11-22 18:19:26 +08:00
    @enenaaa 用的就是普通服务器, 只要内存够, es 的搜索速度就是很快, 数据量目前 600W
    cxydhd
        21
    cxydhd  
       2016-11-30 18:45:29 +08:00
    @puorg hi ,问下你大概多大的数据量需要考虑清除掉一部分数据?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2408 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 02:01 · PVG 10:01 · LAX 18:01 · JFK 21:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.