开源一个正文抽取的微服务

2015-11-09 16:48:05 +08:00
 ququzone

一个正文抽取的微服务,目前采用的算法是行块密度算法,大概测试了一下,可以抽取大部分的网页正文,但是效果还不是很理想,打算再用 Readability 再实现一遍。
项目用到了下面一下技术,感兴趣可以一起改进一下

  1. Spring Boot
  2. Restful API
  3. React

项目地址 https://github.com/ququzone/smart-extractor

2016 次点击
所在节点    程序员
6 条回复
kikyous
2015-11-09 16:52:58 +08:00
微信的优化阅读不知道用什么做的,效果很棒
domty
2015-11-09 16:54:42 +08:00
已 fork, 就当 spring-boot 学习教材了
ququzone
2015-11-09 16:55:16 +08:00
@kikyous 微信的算法应该是参考了 Readability ,这个算法有 js 的实现,我打算转成 java 放到这个项目中
zts1993
2015-11-09 17:15:42 +08:00
看上去可以啊,回头看看
ququzone
2015-11-10 11:24:25 +08:00
@domty spring-boot 很简单的
domty
2015-11-10 11:45:50 +08:00
@ququzone
正在看文档,感觉还行,有个 demo 上手能快点

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/234825

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX