在Python中读取大型CSV文件

14 浏览2023年7月14日

匿名的 2023年7月14日

0 Comments

我目前正在尝试在Python 2.7中读取包含最多1百万行和200列的.csv文件（文件大小从100MB到1.6GB不等）。对于行数在30万以下的文件，我可以做到（速度很慢），但是一旦超过这个数量，就会出现内存错误。我的代码如下：

def getdata(filename, criteria):
    data=[]
    for criterion in criteria:
        data.append(getstuff(filename, criteron))
    return data
def getstuff(filename, criterion):
    import csv
    data=[]
    with open(filename, "rb") as csvfile:
        datareader=csv.reader(csvfile)
        for row in datareader: 
            if row[3]=="column header":
                data.append(row)
            elif len(data)<2 and row[3]!=criterion:
                pass
            elif row[3]==criterion:
                data.append(row)
            else:
                return data

在getstuff函数中的else子句的原因是所有符合条件的元素都会在csv文件中连在一起列出，所以当我跳过它们时，我会离开循环以节省时间。

我的问题是：

我如何能够使它与更大的文件一起工作？
有没有办法让它运行得更快？

我的电脑有8GB的RAM，运行64位的Windows 7，处理器为3.40 GHz（不确定您需要什么信息）。

阅读巨大的 .csv 文件。

从一个2GB的.csv文件中提取json中的值的最佳方法

Python, 如何将非常大的文件读入数据框架中

使用Python查找大型.csv文件中的行数。

处理大文件的最快方式是什么？

如何读取一个大的csv文件（20G）

在Python中读取非常大的文件的最佳方法

Python在处理大型CSV文件（numpy）时出现内存不足的问题。

如何部分读取一个巨大的CSV文件？

如何在python中合并大型csv文件？

在pandas中的大型持久DataFrame。

使用Pandas读取大型文本文件

在Python中处理大型CSV文件

Python, memory error, csv file too large Python，内存错误，CSV文件太大

_csv.Error: 字段大于字段限制 (131072)

使用多进程池读取CSV文件比使用CSV阅读器花费的时间更长。

为什么在Pandas中读取大型CSV文件时，即使有足够的内存，但没有使用low_memory参数仍会导致内存错误？

使用Python或R将非常大的SQL文件导出为CSV文件。

python: 如何读取和处理一个18GB的csv文件？

以分块的方式加载csv文件

在Python中读取大型CSV文件

0 答案