V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ququzone
V2EX  ›  程序员

开源一个正文抽取的微服务

  •  
  •   ququzone ·
    ququzone · 2015-11-09 16:48:05 +08:00 · 2003 次点击
    这是一个创建于 3303 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一个正文抽取的微服务,目前采用的算法是行块密度算法,大概测试了一下,可以抽取大部分的网页正文,但是效果还不是很理想,打算再用 Readability 再实现一遍。
    项目用到了下面一下技术,感兴趣可以一起改进一下

    1. Spring Boot
    2. Restful API
    3. React

    项目地址 https://github.com/ququzone/smart-extractor

    第 1 条附言  ·  2015-11-10 11:24:35 +08:00
    README 中添加了 API 说明,这个项目主要是可以作为微服务集成到其它项目中,返回的数据是 json 格式, react 的界面仅仅是演示了一下接口的调用方式,由于后台请求采用的[fetch]( https://github.com/github/fetch),所以不支持 IE9 以下的浏览器。
    6 条回复    2015-11-10 11:45:50 +08:00
    kikyous
        1
    kikyous  
       2015-11-09 16:52:58 +08:00
    微信的优化阅读不知道用什么做的,效果很棒
    domty
        2
    domty  
       2015-11-09 16:54:42 +08:00
    已 fork, 就当 spring-boot 学习教材了
    ququzone
        3
    ququzone  
    OP
       2015-11-09 16:55:16 +08:00
    @kikyous 微信的算法应该是参考了 Readability ,这个算法有 js 的实现,我打算转成 java 放到这个项目中
    zts1993
        4
    zts1993  
       2015-11-09 17:15:42 +08:00
    看上去可以啊,回头看看
    ququzone
        5
    ququzone  
    OP
       2015-11-10 11:24:25 +08:00
    @domty spring-boot 很简单的
    domty
        6
    domty  
       2015-11-10 11:45:50 +08:00
    @ququzone
    正在看文档,感觉还行,有个 demo 上手能快点
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5592 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 07:16 · PVG 15:16 · LAX 23:16 · JFK 02:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.