论文做实验需要英文分词和单词提取，有啥好python库推荐么

2012-07-23 16:40:38 +08:00

stackpop

其实主要是把一篇文章的关键词（所有出现次数大于等于1的英文单词，不考虑词组）全部提取出来然后按我自己的算法来建立索引就OK了，python直接写其实也挺方便，

不过还是想问问，有专门处理这类问题的库么？尤其是如果能直接从网页上抓取并过滤html就好了。因为实验要设计挺多不同领域的文档做统计，我就不想复制到txt了。。。。

嘿嘿，首次发主题，谢谢诸位.

7571 次点击

所在节点

Python

4 条回复

eric

2012-07-23 16:45:14 +08:00

NLTK 的 word_tokenize 就能很方便的实现。
http://nltk.org/

stackpop

2012-07-23 16:53:17 +08:00

@eric 的确好强大，就是我想要的东西。之前打算用C++ 写，后来朋友建议用python,代码简洁得多，果然py强大~难怪国外好多大学CS第一门编程课改成python了，呵呵

fanzheng

2012-07-24 00:08:04 +08:00

如果只是出现次数的话用split然后counter()嘛，官方模块文档里面的counter()

from0tohero

2012-07-26 18:39:19 +08:00

NLTK最好没有之一～

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/43220

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.