做了个收藏夹,支持自动分类、整理网页,暂时取名“星藏”

2017-02-04 15:15:32 +08:00
 northisland

1. 我为什么做“星藏”?

1.1 首先赖 GFW ,

引发了“星藏”诞生的主要原因: Chrome 收藏夹要怎样同步、合并?

1.2 其次,针对的是和我一样的不羁收藏癖:

他们看到好的网页,往往直接戳星星,懒得打标签——收藏夹里的星星,已经成千上万了。

1.3 最后,一點微小的工作:

希望大家善待自己口袋里珍藏的“小星星”,再翻开看看,也许会有新惊喜。薛薛。

2. 怎么使用?

星藏链接(还没绑定域名)

收藏夹示例

2.1 上传

2.2 浏览

测试过许多系统,甚至微信的内置浏览器,都可以查看。

2.3 吐槽,交流,反馈, code review


3. 拆开“星藏”看看它的零件

    我之前工作上主要是做图像算法。所以这些组成零件的工具选择,很非主流。

    欢迎吐槽探讨。

3.1 登录界面

用的themeforest 上的这个模板,需要 apache2 。这个直接开源有 License 问题。

3.2 用户面板

用的是 Bootstrap 自己搭的。

上传功能,用的是 dropzone github

3.3 书签展示页面

用的是themeforest 的这个模板

缺点:

优点:

3.4 网页后台

Tornado ,具体是 RequestHandler 和 StaticFileHandler 。

现在是每个步骤需要手动刷新。我想知道,要怎么让后台的内容,实时刷新到 html 中(类似美国大选时地图票数)。

这里也要请教各位,谢谢。

3.5 数据存储

没有用数据库

自己设计的结构,用 pickle 存储数据对象(用户信息,用户收藏,用户 log )。

觉得有点儿乱了,正在考虑重构(传说中的:重写重做重新选架构)。

3.6 网页标题分类器

分类器是很早以前做的,用的是经典方法:特征+SVM :github 在这里。效果差劲,大概能分对 70%。

    准备随时用新的分类器踢掉。

网页后台是非阻塞的,分类器是阻塞的。所以又用 zeromq 做了一个消息队列:通信原型的模型在这

把消息队列, NLP 分类器打了一个包:NLP+消息队列的项目。欢迎 star 。

3.7 chrome 插件

开源在这里。写的太简陋。。。 90%的情况下需要翻墙才能用


4. 说些“大话”

按照美国鸡汤作家安兰德所说:活物都免不了做选择;非随机的选择,能体现出做选择者的“价值”。

价值 1 :真实。

(我们不能确定您收藏的网页是否贴近真实。

但我会尽所能,保护你的收藏,你懂的。)

价值 2 :让项目容易部署、传播。

p.s.就这 2 条原则吧,以后如果我忘记了,欢迎任何人和我讨论。


最后再次欢迎大家来折腾。

1668 次点击
所在节点    分享创造
27 条回复
fffflyfish
2017-02-04 15:55:18 +08:00
厉害了!正好也在看 NLP ,那个后台数据实时刷新 lz 可以试试 ajax
qq316107934
2017-02-04 15:59:08 +08:00
看得出来很用心,赞一个。 但有时候可能对于 it 上的细分要求更高一些,我的建议是建立一个 tag 系统,能让收藏按照 tag 浏览,每个收藏可以自动生成多个 tag ,这样实用性就大大增强了。
wclebb
2017-02-04 16:09:41 +08:00
看起来很赞啊,文太长,我只想问:是不是可以对我的收藏的书签自动化整理?是的话更赞了——我收藏太多了,也没时间去整理……
northisland
2017-02-04 16:15:18 +08:00
@wclebb 是自动化整理。

分类的依据是网页的标题。

现在分成 6 类:教育,科技,经济,娱乐,体育,购物。



新版本会把分类做的更细的。到时候 at 你。谢谢支持 LoL
rekulas
2017-02-04 16:17:34 +08:00
google 同步的路过,之前我也迷恋这些第三方的收藏夹。。。
cqcn1991
2017-02-04 16:21:14 +08:00
自动整理, nb 啊!
northisland
2017-02-04 16:43:12 +08:00
@cqcn1991 谢谢,

算法效果还需要提高,看下几个版本吧~
admol
2017-02-04 17:29:41 +08:00
试用页面文本框为空好像没做校验
northisland
2017-02-04 18:12:09 +08:00
@admol 是的。登录有一堆工作没做。

测试阶段,登录不需要密码。
buir
2017-02-04 18:20:58 +08:00
本站数据:北京市北京市 腾讯云计算(北京)有限责任公司 腾讯集团
参考数据 1 :天津天津 电信 /联通 /移动
参考数据 2 :中国

不怕被 DDOS !? 直接给 IP
chocolatesir
2017-02-04 20:50:30 +08:00
希望能够加入允许整理后不共享的设置。。
popok
2017-02-04 21:45:55 +08:00
终于知道,原来随手一点加收藏,不分类,导致收藏夹超级乱的,不止我一个人。放心了
Laynooor
2017-02-04 21:50:34 +08:00
收藏夹多的滚轮查看都要卡半天
@popok
mahone3297
2017-02-04 21:53:58 +08:00
我也是想做一个收藏夹。 lz 做的,跟我的。。。
* 某些想法跟我不一样,比如,我是希望人工分类的,是希望自己维护的
* 某些想法貌似跟我一样,我是希望,收藏夹能有可 public ,可 private 部分,然后 public 部分,大家都可以随处分享
javaluo
2017-02-04 22:20:26 +08:00
觉得网页内文字搜索价值更大,从使用场景看
happy8109
2017-02-04 23:42:55 +08:00
只需要个支持树形目录的,一直没找到
zhangbohun
2017-02-04 23:50:26 +08:00
上千个收藏不知道有没有救额。。。
wclebb
2017-02-04 23:56:34 +08:00
我和你的世界好像不一样……

因为我按了三种方法,都不行。
第一种,下载插件, Chrome 拒绝加载,据之前的经验,基本上大部分插件无法加载,懒得折腾。
第二种,输入什么 chrome://v 什么那个,然后打开出来只有文本的,关于系统信息和浏览器信息的那种,是我理解错误?
第三种,好办,导出 html 文件就可以了。
然后找了几分钟后放弃——找不到可以导出的地方。

然后我发现, Chrome 书签导出到你网站,然后……就没然后了?……
我原本是想你来打理我的书签管理的……
rockyou12
2017-02-05 14:07:07 +08:00
需要一个隐私?例外?私人空间?类似的功能吧,不然羞羞的网站怎么办(*ノωノ)
ishowman
2017-02-05 19:01:16 +08:00
@northisland 还是希望能手动分类

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/338041

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX