花了3个晚上,把readability最新的1.7.1转成了python版的

2012-03-09 09:40:14 +08:00
 kingwkb
http://yanghao.org/tools/readability

github上找的的都是太老的版本0.4

其实算法这东西吧,看了别人的也就那样,但是要自己想出来确实不好弄,实现还是很容易的
9433 次点击
所在节点    Python
52 条回复
kafka0102
2012-03-14 00:12:50 +08:00
@mlzboy 其实开始是想基于浏览器内核的,但webkit的文档太少、gecho的依赖太多,都不大可能在短时间搞定,后来使用gecho的java版本的XPCOM接口能搞了,不过在移植过程中存在一些问题就放弃了。。。我研究生时,还使用过VC内嵌的浏览器内核搞过,能获得布局信息,但因为时间关系,最终论文出来了,东西没做出来。
Zzway
2012-03-14 00:33:29 +08:00
http://www.douban.com/note/203856722/
只出来个标题

另外问一下,我chrome上的readability扩展,read later以前只是显示一下saving、saved,现在会先转到readability的网站确认了再转回来,不知道为什么,这样好麻烦!
kingwkb
2012-03-14 07:44:39 +08:00
@Zzway 这个是特殊情况,他的整段文字都在pre标签内,这个readability可以获取到内容么? 我没用过readability
kojp
2012-03-14 08:54:38 +08:00
@kingwkb 坐等github地址~~
flyingkid
2012-03-14 08:58:52 +08:00
sohoer
2012-03-14 09:12:01 +08:00
kingwkb
2012-03-14 10:03:55 +08:00
@flyingkid 这个是需要安装readability扩展才能用? 你发的连接我这只能看到标题,内容看不到
mlzboy
2012-03-14 22:54:44 +08:00
@kafka0102 我也是相似的经历,哈哈,可以多交流哈,在北京的话
qichunren
2012-04-17 12:00:12 +08:00
standin000
2013-12-23 11:26:38 +08:00
为什么不调用readability.com提供的parse API了?
omg21
2016-06-27 21:21:03 +08:00
下了楼主的代码,看着好高大上,但是不会用啊,楼主能不能举个例子?
Hkale
2016-07-10 16:03:15 +08:00
@omg21 代码里不是有用法吗,注释里

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/29123

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX