自己开发的开源百度网盘爬虫程序

2016-11-21 16:51:38 +08:00
 puorg

用 node.js 历时一个星期左右开发的这个项目,自我感觉还不错,有兴趣的以前交流下 nodejs 开发经验

github 地址: https://github.com/callmelanmao/yunshare

在线百度网盘搜索地址:百度网盘搜索

在 V2EX 的另外一个节点也发了帖子,都没有什么人一起交流,希望管理员不要删帖,谢谢。

4716 次点击
所在节点    程序员
21 条回复
xiaoyu9527
2016-11-21 16:53:57 +08:00
速度很快呀
araraloren
2016-11-21 17:20:44 +08:00
~~ 看起来还不错的样子,不过这个东西好多
crab
2016-11-21 17:23:31 +08:00
搜索结果怎么偏离那么多啊。
搜索:当我想你的时候.MP3
puorg
2016-11-21 17:32:43 +08:00
@crab 你试试搜索音乐, elasticsearch 太占服务器内存了,我只索引了 title 字段,使用的是 ik 分词插件,还没做优化
tumbzzc
2016-11-21 17:40:26 +08:00
a-ads.com 的广告单价高吗?
puorg
2016-11-21 17:45:35 +08:00
@tumbzzc 很低的,服务器费用是赚不回来了
letitbesqzr
2016-11-21 17:52:37 +08:00
elasticsearch 快是快... 实在太耗内存了.. 放在云服务器的话 开销太大
klxq15
2016-11-21 18:25:14 +08:00
爬一会就会被百度封 ip ,你是怎么解决的
puorg
2016-11-21 18:55:23 +08:00
@klxq15 休眠几秒
klxq15
2016-11-21 19:25:55 +08:00
@puorg 具体是几秒呢?
huangfs
2016-11-21 22:30:28 +08:00
elasticsearch 几台机器啊
eoo
2016-11-21 23:48:01 +08:00
挂了?
glogo
2016-11-22 00:24:14 +08:00
一直好奇这种站的基本原理是啥,楼主能否分享下?
regent
2016-11-22 00:54:29 +08:00
链接有效性会不会定期验证?
cxydhd
2016-11-22 10:33:00 +08:00
对这个项目挺感兴趣的,你的服务器内存有多大?第一次接触 nodejs ,你开源的源码的搜索入口是在哪个文件里?
puorg
2016-11-22 10:35:00 +08:00
@cxydhd mongodb 保存在本地, elasticsearch 服务器 3g 内存,这个项目不带 web 界面的,只有爬虫和建立 elasticsearch 索引部分
cxydhd
2016-11-22 11:12:54 +08:00
@puorg 哦哦,我前端知识比较小白,那如果我加个界面测试,怎么调用这个项目的
puorg
2016-11-22 15:17:20 +08:00
@cxydhd 现在这个文档写的比较粗糙,我过几天再写个更详细的, web 端调用你只要看 elasticsearch 的 mapping 文件就行了,在 data 文件夹下面,前提是你已经正确安装这个项目,并且建立好索引
enenaaa
2016-11-22 15:29:53 +08:00
elasticsearch 搜索速度真是快啊。
楼主现在数据是多大量级的。我一个 10w+的数据用 redis+mysql 感觉太慢了。 当然我服务器比较渣, 不太敢上 elasticsearch
puorg
2016-11-22 18:19:26 +08:00
@enenaaa 用的就是普通服务器, 只要内存够, es 的搜索速度就是很快, 数据量目前 600W

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/322127

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX