有人知道印象笔记的 Chrome 插件剪藏的实现原理么？

› Get Google Chrome

› Vimium · 在 Chrome 里使用 vim 快捷键

This topic created in 3737 days ago, the information mentioned may be changed or developed.

如题， Chrome 插件的剪藏插件可以把网页的内容剪下来存入到一片笔记中，对于技术资料的收集简直是一大利器。

因为网上的网址可能不会永久存在，但是剪藏下来，就不会怕网址无法访问而丢失原来的内容了。而且也方便自己做知识的管理。

对于这个剪藏插件的原理和算法特别好奇，想知道它是如何识别网页正文、识别广告的呢？有知道的同学吗？

附 2 张图：

9 replies • 2016-03-31 16:10:47 +08:00

pheyer

Mar 31, 2016

你解压 crx 看一下它的源码不就知道了吗

pheyer

Mar 31, 2016

也不是一直很可靠，其实一般来说我都是选中文字再进行剪藏的

flyslow

Mar 31, 2016

@pheyer 解压看过，全部是混淆的代码，不是非常清晰。

morvencao

Mar 31, 2016

貌似是给标签打分。

flyslow

Mar 31, 2016

@morvencao 猜测还是有相关的分析？

towser

Mar 31, 2016

正文提取算法，做爬虫也能用到。

nameryan

Mar 31, 2016

现在 V2 的帖子是越来越水了！
---
crx 的可以看源码，不过核心技术应该不会放在上面
类似的还有 instpaper 和 pocket ，有相应的 api 开放可供开发者调用
其实这就是从大段的 div 里面找到正文然后识别出来而已，只不过优化做的好不好。

sciooga

Mar 31, 2016

关键词： Readability

V 站内有过很多讨论：
/t/10934
/t/67099
/t/223840
/t/241986

看一下就能了解个大概。

leojoy710

Mar 31, 2016