论文做实验需要英文分词和单词提取,有啥好python库推荐么

2012-07-23 16:40:38 +08:00
 stackpop
其实主要是把一篇文章的关键词(所有出现次数大于等于1的英文单词,不考虑词组)全部提取出来然后按我自己的算法来建立索引就OK了,python直接写其实也挺方便,

不过还是想问问,有专门处理这类问题的库么?尤其是如果能直接从网页上抓取并过滤html就好了。因为实验要设计挺多不同领域的文档做统计,我就不想复制到txt了。。。。

嘿嘿,首次发主题,谢谢诸位.
7571 次点击
所在节点    Python
4 条回复
eric
2012-07-23 16:45:14 +08:00
NLTK 的 word_tokenize 就能很方便的实现。
http://nltk.org/
stackpop
2012-07-23 16:53:17 +08:00
@eric 的确好强大,就是我想要的东西。之前打算用C++ 写,后来朋友建议用python,代码简洁得多,果然py强大~难怪国外好多大学CS第一门编程课改成python了,呵呵
fanzheng
2012-07-24 00:08:04 +08:00
如果只是出现次数的话用split然后counter()嘛,官方模块文档里面的counter()
from0tohero
2012-07-26 18:39:19 +08:00
NLTK最好没有之一~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/43220

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX