COCA20000 爬单词

这是英语国家使用频率最高的词汇集合。从众多语料库（ corpus ）中提取。用大数据的方法从各种文体中自动生成一个词频表。这是当今最准确的词频表：美国当代语料库 coca 中的前 20000 个单词。简单的说， coca 就是把 1990-2012 年美国最有代表性的报纸，杂志，小说，学术，口语（口语可能是用的电视剧或者脱口秀之类的节目转录的）汇集起来，每部分各占 1/5 ，生成 4.5 亿单词量语料库。背完这个，应当就可以愉快的阅读纽约时报了。

文件下载： http://pan.baidu.com/s/1huGQM

我写了一个如下的代码，但是执行完之后， www.shanbay.com 这个网站就再也登不上去了！怎么办！！

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import os
from pyquery import PyQuery as pq

website=r'http://www.shanbay.com'
WordBook=open('booktxt.txt','r')
runkey=raw_input('which page do you want to scan:')

while True:
line=WordBook.readline()
if runkey in line:
break
while True:
dicttxt=open('dicttxt.txt','a')
for i in range(1,6):
URL=website+line.replace('\n','')+'?page='+str(i)
print URL
WordPage=pq(url=URL)
WordContainer=WordPage('tr')
for data in WordContainer:
wordrow=pq(data).find('td').eq(0).text()+'\t'+pq(data).find('td').eq(1).text().replace('\n','\t')+'\n'
if u'大于号' in wordrow:
break
dicttxt.write(wordrow)
dicttxt.close()
countertxt=open('record.txt','a')
countertxt.write(line[-8:-2]+'\n')
countertxt.close()
print line,'Done'
line=WordBook.readline()

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/233073

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.