V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Morriaty
V2EX  ›  程序员

想问下大厂的同学们你们的 NLP 基础设施是什么样的

  •  
  •   Morriaty · 2020-11-17 14:38:10 +08:00 · 2119 次点击
    这是一个创建于 1465 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网上更多的 NLP 资料要么是炼丹论文,要么是《 xxx 算法详解》,几乎没有看到一个完备的文章去介绍一个工业界落地的基础架构设施是什么样的
    第 1 条附言  ·  2020-11-17 15:21:10 +08:00
    从最底层的词库管理等开始,到其上的分词、POS 、NER 等任务,再到分类、摘要、生成等服务,最后到电商、资讯的应用场景,一个 robust 的系统是什么样的?
    6 条回复    2020-11-18 12:36:40 +08:00
    threeEggs123
        1
    threeEggs123  
       2020-11-17 14:52:50 +08:00 via Android
    sklearn 做了一个模型。然后用 flask,暴露一个 api,搞定了。是做文本分类。部署方式就是 docker 镜像,部署到 ecs 上面去了。

    https://zhuanlan.zhihu.com/p/47349497
    lsvih
        2
    lsvih  
       2020-11-17 14:54:58 +08:00
    以前 Uber 机器学习平台的介绍

    https://juejin.im/post/6844903497809264653
    Morriaty
        3
    Morriaty  
    OP
       2020-11-17 17:13:32 +08:00
    @lsvih 机器学习工作流这部分的抽象和拆解很清晰
    andj4cn
        4
    andj4cn  
       2020-11-18 09:10:51 +08:00
    @threeEggs123 数据量上来 Flask 会不会表现很差,仅靠单机内存计算的话。
    Morriaty
        5
    Morriaty  
    OP
       2020-11-18 10:13:13 +08:00
    过于真实,全是收藏的🤣
    threeEggs123
        6
    threeEggs123  
       2020-11-18 12:36:40 +08:00 via Android
    @andj4cn 我们的需求是文本多分类,
    比如 I love u -> api -> 喜欢。
    api 就告诉我们这句话的 tag 是什么。
    至于高并发的情况下,我们也考虑到了,部署方式是 ECS,默认三台机器,有对应的扩容缩容策略。负载均衡的平摊 api 请求。数据量上来了,我理解的是高并发哈。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   968 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:35 · PVG 05:35 · LAX 13:35 · JFK 16:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.