Telegram 的网页主要内容提取真是一个黑科技

大家可以试试把各种链接（微博，Twitter，V2EX……）发到聊天框里，Telegram 似乎总是可以提取到页面上最重要的内容。

hjc4869

2015-06-07 12:24:53 +08:00

自己试了一下，这个是在服务端采集的，所以具体细节无从得知了。。

oott123

2015-06-07 12:32:26 +08:00

这算法不难吧，Readability 啊 Pocket 之类的不就有类似的嘛。

isaced

2015-06-07 12:33:09 +08:00

真厉害，试了下 cnBeta、36Kr、SegmentFault，甚至连我一个人博客随便一篇文章都能识别出来...

wy315700

2015-06-07 12:35:27 +08:00

这不就是搜索引擎的技术吗，

also24

2015-06-07 12:36:36 +08:00

以前似乎是直接抓取 description 的，不知道现在是怎样

Livid

2015-06-07 12:39:28 +08:00

@also24 谢谢提醒，我找一些没有 desc 的页面试试。

Livid

2015-06-07 12:42:05 +08:00

czheo

2015-06-07 12:46:57 +08:00

@also24 现在好像也基本上是这样

Laforet

2015-06-07 14:59:27 +08:00

现在机械语义分析可用性已经很高了，比如下面这个bot

https://www.reddit.com/user/bitofnewsbot

还有上次推特财报被提前公布也是用了爬虫+语义分析，跳过人工审阅直接发新闻。

xhacker

2015-06-07 15:26:26 +08:00

@orzfly: 比如我在单条推的页面没有看到这个 attribute 啊……

inmyfree

2015-06-07 23:59:55 +08:00

哈哈，推荐我写的一个小东东哈，基于readability
比如我的一个[博客](http://www.mk5i.com/opensource_workplan/)
[效果](http://42.121.117.150:15002/readability?dsturl=http://www.mk5i.com/opensource_workplan/)
[开源项目git地址](https://github.com/inmyfree/readability)

0x17e

2015-06-08 00:46:25 +08:00

新闻类的页面的正文提取是最简单的，包含短楼层或评论的页面是最难提取的。可以试试提取 V2EX，如果能把每个回复都单独提取出来合并成正文，那么才算是厉害的算法，可惜目前主流的笔记软件好像还没有这样的功能，除了某些采集软件。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.