提高Pandas数据框的行追加性能

15 浏览2023年3月22日

匿名的 2023年3月22日

0 Comments

我正在运行一个基本脚本，它循环遍历嵌套字典，从每个记录中获取数据，并将其添加到Pandas DataFrame中。数据大致如下所示：

data = {"SomeCity": {"Date1": {record1, record2, record3, ...}, "Date2": {}, ...}, ...}

总共有几百万条记录。脚本本身如下所示：

city = ["SomeCity"]
df = DataFrame({}, columns=['Date', 'HouseID', 'Price'])
for city in cities:
    for dateRun in data[city]:
        for record in data[city][dateRun]:
            recSeries = Series([record['Timestamp'], 
                                record['Id'], 
                                record['Price']],
                                index = ['Date', 'HouseID', 'Price'])
            FredDF = FredDF.append(recSeries, ignore_index=True)

然而，这运行得非常慢。在寻找并行化的方法之前，我想确保我没有忽视任何明显的使其性能更快的方法，因为我对Pandas还不太熟悉。

什么是向DataFrame追加行的最快和最高效的方法?

高效向数据框中添加行的方法

使用pandas中的.append在for循环内部。

提升pandas groupby的性能

什么是使用 Pandas 遍历数据框架的最有效方式？

pd.append()是将两个数据帧连接起来的最快方法吗？

将列表或系列附加到 pandas DataFrame 作为一行?

如何在for循环中追加行到pandas数据框中？

Pandas DataFrame concat vs append

将Pandas数据框转换为嵌套字典。

将DataFrame在for循环中结合起来

创建大型Pandas数据框：预分配 vs 追加 vs 连接

为什么DataFrame的串联操作会呈指数级增加的速度变慢？

如何使用字典从嵌套的JSON创建pandas数据帧。

pandas的iterrows方法是否存在性能问题？

Pandas从循环中创建数据框架

Python pandas: 逐行填充数据框

如何向 pandas 数据框中添加额外的行。

Pandas根据唯一的列值拆分数据帧。

如何在Python中使用Pandas将字典列表转换为数据框

提高Pandas数据框的行追加性能

0 答案