COCA20000 爬单词

2015-11-02 22:27:33 +08:00
 easyhappy
这是英语国家使用频率最高的词汇集合。 从众多语料库( corpus )中提取。用大数据的方法从各种文体中自动生成一个词频表。这是当今最准确的词频表:美国当代语料库 coca 中的前 20000 个单词。 简单的说, coca 就是把 1990-2012 年美国最有代表性的报纸,杂志,小说,学术,口语(口语可能是用的电视剧或者脱口秀之类的节目转录的)汇集起来,每部分各占 1/5 ,生成 4.5 亿单词量语料库。 背完这个,应当就可以愉快的阅读纽约时报了。

文件下载: http://pan.baidu.com/s/1huGQM

我写了一个如下的代码,但是执行完之后, www.shanbay.com 这个网站就再也登不上去了!怎么办!!


import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import os
from pyquery import PyQuery as pq

website=r'http://www.shanbay.com'
WordBook=open('booktxt.txt','r')
runkey=raw_input('which page do you want to scan:')

while True:
line=WordBook.readline()
if runkey in line:
break
while True:
dicttxt=open('dicttxt.txt','a')
for i in range(1,6):
URL=website+line.replace('\n','')+'?page='+str(i)
print URL
WordPage=pq(url=URL)
WordContainer=WordPage('tr')
for data in WordContainer:
wordrow=pq(data).find('td').eq(0).text()+'\t'+pq(data).find('td').eq(1).text().replace('\n','\t')+'\n'
if u'大于号' in wordrow:
break
dicttxt.write(wordrow)
dicttxt.close()
countertxt=open('record.txt','a')
countertxt.write(line[-8:-2]+'\n')
countertxt.close()
print line,'Done'
line=WordBook.readline()
8949 次点击
所在节点    Python
6 条回复
guyskk
2015-11-02 22:53:07 +08:00
easyhappy
2015-11-02 23:03:36 +08:00
@guyskk 本来就是扇贝单词书 http://www.shanbay.com/wordbook/103867/
jings
2015-11-02 23:08:30 +08:00
然而纽约时报的东西管我鸟事
Xs0ul
2015-11-02 23:47:08 +08:00
楼主表情好魔性
iShao
2015-11-03 01:32:33 +08:00
@Xs0ul
😀
est
2015-11-03 13:33:17 +08:00
好像别人是免费提供的 。。。 http://corpus.byu.edu/full-text/database.asp

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/233073

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX