Telegram 的网页主要内容提取真是一个黑科技

2015-06-07 12:18:49 +08:00
 Livid
大家可以试试把各种链接(微博,Twitter,V2EX……)发到聊天框里,Telegram 似乎总是可以提取到页面上最重要的内容。
9878 次点击
所在节点    Telegram
16 条回复
hjc4869
2015-06-07 12:24:53 +08:00
自己试了一下,这个是在服务端采集的,所以具体细节无从得知了。。
oott123
2015-06-07 12:32:26 +08:00
这算法不难吧,Readability 啊 Pocket 之类的不就有类似的嘛。
isaced
2015-06-07 12:33:09 +08:00
真厉害,试了下 cnBeta、36Kr、SegmentFault,甚至连我一个人博客随便一篇文章都能识别出来...
wy315700
2015-06-07 12:35:27 +08:00
这不就是搜索引擎的技术吗,
also24
2015-06-07 12:36:36 +08:00
以前似乎是直接抓取 description 的,不知道现在是怎样
Livid
2015-06-07 12:39:28 +08:00
@also24 谢谢提醒,我找一些没有 desc 的页面试试。
Livid
2015-06-07 12:42:05 +08:00
好吧,看起来,确实和 desc 有关系:

http://vagabond.github.io/rants/2015/06/05/a-year-with-go/
czheo
2015-06-07 12:46:57 +08:00
@also24 现在好像也基本上是这样
Laforet
2015-06-07 14:59:27 +08:00
现在机械语义分析可用性已经很高了,比如下面这个bot

https://www.reddit.com/user/bitofnewsbot

还有上次推特财报被提前公布也是用了爬虫+语义分析,跳过人工审阅直接发新闻。
xhacker
2015-06-07 15:09:39 +08:00
@also24 @Livid: desc 是什么?
orzfly
2015-06-07 15:11:31 +08:00
binux
2015-06-07 15:21:17 +08:00
xhacker
2015-06-07 15:26:26 +08:00
@orzfly: 比如我在单条推的页面没有看到这个 attribute 啊……
icedx
2015-06-07 17:30:11 +08:00
Verizon 家的Message+ 表示不服
inmyfree
2015-06-07 23:59:55 +08:00
哈哈,推荐我写的一个小东东哈,基于readability
比如我的一个[博客](http://www.mk5i.com/opensource_workplan/)
[效果](http://42.121.117.150:15002/readability?dsturl=http://www.mk5i.com/opensource_workplan/)
[开源项目git地址](https://github.com/inmyfree/readability)
0x17e
2015-06-08 00:46:25 +08:00
新闻类的页面的正文提取是最简单的,包含短楼层或评论的页面是最难提取的。可以试试提取 V2EX,如果能把每个回复都单独提取出来合并成正文,那么才算是厉害的算法,可惜目前主流的笔记软件好像还没有这样的功能,除了某些采集软件。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/196680

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX