现有一个贼鸡儿大的文件,想要用 pandas 读取,文件是个是 str|str|str|str|str,用 pandas.read_table(path,header=None,sep='|')进行读取,但是文件里有一些脏数据,比如 str 中含有这|字符,所以用读取的时候老是异常,很蛋疼所以写了函数,进行处理,但是感觉好像有点蠢,各位大手子有没有什么别的方法。
这个是处理异常的函数,文件有 4 个多 G,用我这种方式要读到猴年马月了
def read_file(path):
flag = True
ignore_lines = []
while flag:
try:
data = pd.read_table(path, header=None, sep='|', skiprows=ignore_lines)
except Exception as e:
error_line = re.search(r'line (\d+)', e.__str__()).group(1)
ignore_lines.append(int(error_line))
else:
flag = Flase
return data
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.