@
alexrezit 恩,已经体会到了:
十几万基本 Python 就停止下来了;后来换到1000条左右,会出一个结果。
在 python-cn 讨论组,有一个方法,下面是部分代码,但我还没有运行它:
counts, linenos = {}, {}
sd = counts.setdefault # 节省attribute lookup,不知道有没有必要
for lineno, line in enumerate(lines):
words = line.split(',') # 不能处理单词内含逗号的情况
for wd in words:
if wd in counts:
# 出现过2次了,无视
continue
if wd in linenos:
# 出现过一次了,剔除
counts[wd] = None
del linenos[wd]
else:
# 记录行号(这个是0-based)
linenos[wd] = lineno
return linenos