迫于不会,请教大佬们如何用 pandas 分片读取 csv 文件

2021-02-07 16:02:30 +08:00
 sdushn

背景

我这里有一个被分片存储的 csv 文件,如下所示 | time| A | B | C | D| | ---- | -- | - | -- | -- | | 20:00|0| 1| 2| 3| | time| E | F | G | H| | 20:00|4|5|6|7|| ... 现在想读成 | time| A | B | C | D| E | F | G | H| | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 20:00|0|1|2|3|4|5|6|7|

989 次点击
所在节点    Python
1 条回复
sdushn
2021-02-07 16:23:51 +08:00
### 背景
使用 pandas 库处理一个性能参数的 csv 文件,但是 csv 文件是分片的,格式如下

| time | A | B | C | D |
| ---- |---|---|---|---|
| 20:00| 0 | 1 | 2 | 3 |
| time | E | F | G | H |
| 20:00| 4 | 5 | 6 | 7 |
|...|

现在想读成如下格式,存成一个 dataframe 便于下游继续处理

| time | A | B | C | D | E | F | G | H |...|
| ---- |---|---|---|---|---|---|---|---|---|
| 20:00| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |...|

### 现在方案及问题
现在是通过跳过 n 行读取,然后拼接的方案,会存在多次调用 pandas.read_csv,性能太差了,想请教一个 python 大佬们有什么高效的办法
``pandas.read_csv(target_file, skiprows=skip_rows, nrows=range, skipinitialspace=True)
skip_rows = skip_rows + range
``

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/752102

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX