机器学习日报 2015-01-21 用 MeCab 打造一套实用的中文分词系统

2015-01-22 07:32:58 +08:00
 haoawesome

@好东西传送门 出品, 过刊见 http://ml.memect.com

订阅:给 hao@memect.com 发封空信, 标题: 订阅机器学习日报

可点击加长版48条 http://memect.co/ml-list-2015-01-21


用MeCab打造一套实用的中文分词系统

@52nlp

关键词:经验总结, 自然语言处理, 博客

用MeCab打造一套实用的中文分词系统: MeCab是一套优秀的日文分词和词性标注系统,基于CRF打造,有着诸多优点,代码基于C++实现,基本内嵌CRF++代码,性能优良,并通过SWIG提供多种语言调用接口, 可扩展性和通用性都非常不错。这篇博客尝试基于MeCab训练一套中文分词系统,欢迎观摩 [1]

[1] http://www.52nlp.cn/?p=6932

 


讨论:饶毅:AI暂时还是伪智能

@36氪

关键词:Andrew Ng, 霍金, 饶毅, 新闻

生物学家饶毅:AI = Artificial Intelligence,暂时还是伪智能 | 前一阵子我们报导过 “科学界和企业界大佬联名公开信:警惕可能失控的人工智能”,不过对于AI,生物学家饶毅将其称为“伪智能“。来听听看他的见解吧: [1]

[1] http://www.36kr.com/p/218928.html

 


Mining a VC:文本分析风险投资家关注什么

@爱可可-爱生活

关键词:经验总结, 自然语言处理, Fred Wilson, 博客

《Mining a VC》文本分析的好范例,分析了作为知名VC的Fred Wilson从2003年到2014年发表的所有博客文章,从中发现他的热门关键词、主要主题、各主题代表文章、各主题随时间变化趋势等,可作为文本计算入门范文 [1]

[1] http://bugra.github.io/work/notes/2015-01-17/mining-a-vc/

 


一些关键词提取的工具

@好东西传送门

关键词:自然语言处理, Python, 代码, 主题模型

一些关键词提取的工具rake [1] KEA [2] maui-indexer [3] 中文分词工具也有关键词提取,例如jieba [4] Yaha [5] 另外原则上各种主题模型工具都可以改造来用。进阶阅读Quora贴 [6]

[1] https://pypi.python.org/pypi/rake

[2] http://www.nzdl.org/Kea/description.html

[3] http://maui-indexer.appspot.com/mauiapp

[4] https://github.com/fxsjy/jieba

[5] https://github.com/jannson/yaha

[6] http://www.quora.com/What-are-good-tools-to-extract-key-words-and-or-topics-tags-from-a-random-paragraph-of-text

 


Rabit:兔子和分布式机器学习

@陈天奇怪

关键词:算法, 集成学习

#分布式机器学习# [1] 我在上个学期完成的分布式可容错机器学习通信库,以及大规模boosted tree (GBDT) 的介绍

[1] http://weibo.com/p/1001603801281637563132

1687 次点击
所在节点    机器学习
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/164346

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX