如何正确检测dask/pandas中的数据类型?

10 浏览
0 Comments

如何正确检测dask/pandas中的数据类型?

我正在将一个有4000列的csv文件加载到dask中,进行一些转换,然后将其转换为Pandas。\n默认情况下,所有字段都以float64形式加载,因此在实验过程中浪费了大量内存并导致一些内核崩溃。\n仍然使用兼容性的Pandas <1.0版本。\n问题是,不进行下转换(5 != 5.00),所以也许我可以从float64转换为float8,有没有一种方法可以进行大规模的列检测?\n将字段从float转换为int8,数据框的大小从50GB降到了约800MB(是的,我破坏了数据,这只是一个测试)。\n在机器学习中,经常会遇到大型数据框,我认为应该有一种标准化的方法来优化它们,但还没有找到...。\n在进行此转换之后,保持数据类型并持久化数据框,使用Parquet格式可以吗?\n谢谢!!

0