如何正确检测dask/pandas中的数据类型？

10 浏览2023年2月16日

匿名的 2023年2月16日

0 Comments

我正在将一个有4000列的csv文件加载到dask中，进行一些转换，然后将其转换为Pandas。\n默认情况下，所有字段都以float64形式加载，因此在实验过程中浪费了大量内存并导致一些内核崩溃。\n仍然使用兼容性的Pandas <1.0版本。\n问题是，不进行下转换（5 != 5.00），所以也许我可以从float64转换为float8，有没有一种方法可以进行大规模的列检测？\n将字段从float转换为int8，数据框的大小从50GB降到了约800MB（是的，我破坏了数据，这只是一个测试）。\n在机器学习中，经常会遇到大型数据框，我认为应该有一种标准化的方法来优化它们，但还没有找到...。\n在进行此转换之后，保持数据类型并持久化数据框，使用Parquet格式可以吗？\n谢谢！！

将列的数据类型从'objects'转换为'floats'或'integers'

在Pandas中解析大型CSV文件的最快方法

在Pandas中将浮点数转换为整数？

在pandas中的大型持久DataFrame。

Python, 如何将非常大的文件读入数据框架中

通过dtype选择Pandas列

如何将数据框中除第一列之外的所有浮点列转换为指定类型？

我想要更改数据帧中一列的数字格式。例如，我想要将数字从10.0更改为10。

Python pandas：在读取Excel文件时如何指定数据类型？

Pandas：将列转换为日期时间格式

将包含NaN的Pandas列转换为dtype`int`

将包含缺失值的列转换为INT数据类型，而不修改缺失值。

使用pandas的to_csv函数导出float64数据类型

pandas能识别哪些数据类型？

合并数据集后会得到浮点数值，无法转换为整数。

在Pandas中将float64列转换为int64。

如何可逆地将Pandas dataframe存储到磁盘中，并从磁盘中加载。

Pandas以字符串类型读取csv文件。

在将大型Pandas数据框保存为hdf时出现OverflowError。

Numpy原地数据类型转换

如何正确检测dask/pandas中的数据类型？

0 答案