这是英语国家使用频率最高的词汇集合。 从众多语料库( corpus )中提取。用大数据的方法从各种文体中自动生成一个词频表。这是当今最准确的词频表:美国当代语料库 coca 中的前 20000 个单词。 简单的说, coca 就是把 1990-2012 年美国最有代表性的报纸,杂志,小说,学术,口语(口语可能是用的电视剧或者脱口秀之类的节目转录的)汇集起来,每部分各占 1/5 ,生成 4.5 亿单词量语料库。 背完这个,应当就可以愉快的阅读纽约时报了。
文件下载:
http://pan.baidu.com/s/1huGQM我写了一个如下的代码,但是执行完之后,
www.shanbay.com 这个网站就再也登不上去了!怎么办!!
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import os
from pyquery import PyQuery as pq
website=r'
http://www.shanbay.com'
WordBook=open('booktxt.txt','r')
runkey=raw_input('which page do you want to scan:')
while True:
line=WordBook.readline()
if runkey in line:
break
while True:
dicttxt=open('dicttxt.txt','a')
for i in range(1,6):
URL=website+line.replace('\n','')+'?page='+str(i)
print URL
WordPage=pq(url=URL)
WordContainer=WordPage('tr')
for data in WordContainer:
wordrow=pq(data).find('td').eq(0).text()+'\t'+pq(data).find('td').eq(1).text().replace('\n','\t')+'\n'
if u'大于号' in wordrow:
break
dicttxt.write(wordrow)
dicttxt.close()
countertxt=open('record.txt','a')
countertxt.write(line[-8:-2]+'\n')
countertxt.close()
print line,'Done'
line=WordBook.readline()
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/233073
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.