在pandas中规范化数据

Question

17 浏览2023年5月15日

匿名的 2023年5月15日

0 Comments

假设我有一个pandas数据框df：

我想计算数据框的按列平均值。

这很简单：

df.apply(average)

然后是按列计算范围max(col) - min(col)。这也很简单：

df.apply(max) - df.apply(min)

现在对于每个元素，我想减去它所在列的平均值，并除以它所在列的范围。我不确定如何做到这一点。

非常感谢任何帮助/指导。

0

3 答案

匿名的 · Answer 1 · 2023-09-12T16:59:15+00:00

问题：Normalize data in pandas（在pandas中归一化数据）的出现原因是什么？有什么解决方法？

原因：文章中提到的链接已经失效，需要找到一个可用的链接或其他解决方法。

解决方法：可以使用sklearn库中的方法来进行归一化操作。具体步骤如下：

1. 导入所需的库

import pandas as pd
from sklearn import preprocessing

2. 创建一个数据字典

data = {'score': [234,24,14,27,-74,46,73,-18,59,160]}

3. 将数据字典转换为DataFrame

df = pd.DataFrame(data)

4. 创建一个MinMaxScaler对象

min_max_scaler = preprocessing.MinMaxScaler()

5. 使用MinMaxScaler对象对DataFrame进行归一化操作

np_scaled = min_max_scaler.fit_transform(df)

6. 将归一化后的数据转换为DataFrame，并指定列名

df_normalized = pd.DataFrame(np_scaled, columns = cols)

可以根据具体的版本和报错信息进行调整，例如在np_scaled的部分，可能会出现期望2D数组但输入是1D数组的错误，可以尝试使用reshape(-1,1)来解决：

np_scaled = min_max_scaler.fit_transform(df.score.astype(float).values.reshape(-1, 1))

匿名的 · Answer 2 · 2023-09-25T03:07:43+00:00

原因：需要对数据进行标准化处理，即将数据转化为具有相同尺度的形式，以便更好地进行比较和分析。

解决方法：使用Pandas中的apply函数对数据进行标准化处理。可以使用apply函数对整个数据框或者分组后的数据进行操作。代码中使用lambda函数来计算每列数据的标准化值，然后将结果赋给新的数据框或者添加为原数据框的新列。

具体代码如下：

import numpy as np
import pandas as pd
# 创建数据框
np.random.seed(1)
df = pd.DataFrame(np.random.randn(4,4)* 4 + 3)
# 对整个数据框进行标准化处理
df_normalized = df.apply(lambda x: (x - np.mean(x)) / (np.max(x) - np.min(x)))
# 对分组后的数据进行标准化处理
df['grp'] = ['A', 'A', 'B', 'B']
df_grouped_normalized = df.groupby(['grp'])[[0,1,2,3]].apply(lambda x: (x - np.mean(x)) / (np.max(x) - np.min(x)))

以上代码通过apply函数对整个数据框进行标准化处理，然后将结果赋给df_normalized变量。同时，还演示了如何使用groupby函数对数据进行分组，并对每个分组中的相关列进行标准化处理，然后将结果赋给df_grouped_normalized变量。

标准化后的结果可以更好地进行比较和分析，有助于消除不同尺度带来的影响，使得数据更具有可比性和可解释性。

匿名的 · Answer 3 · 2023-05-25T05:09:19+00:00

在这个问题中，我们需要对给定的数据进行归一化处理。归一化是将数据按比例缩放，使其落入一个特定的范围，通常是[0, 1]或[-1, 1]。归一化可以帮助我们在不同的尺度下进行比较和分析数据。

解决方法如下：

1. 首先，我们需要计算数据的均值和范围。通过使用df.mean()和df.max() - df.min()，我们可以分别得到数据的均值和范围。

2. 然后，我们可以使用公式(df - df.mean()) / (df.max() - df.min())来对数据进行归一化处理。这个公式将数据减去均值，然后除以范围。

3. 最后，我们可以通过计算df_norm的均值和范围来验证归一化是否成功。如果归一化成功，df_norm的均值应该接近0，范围应该是1。

但是，如果我们只想对数据的子集进行归一化处理，该怎么办呢？假设行A和B是一个较大的分组因素的一部分，我们希望将其与行C和D分开归一化。我们可以选择子集并按照上述步骤进行计算。可以通过使用索引和选择数据的方法来选择子集。

如果我们需要归一化后的值大于0，我们可以使用(df - df.min()) / (df.max() - df.min())公式来替代先前的公式。

归一化处理不仅限于正态分布，可以应用于任何分布。

需要注意的是，如果数据的所有值都相同，归一化可能会出现问题。在这种情况下，分子和分母都为零，这是Python不太喜欢的。

如果数据框中的某些列是字符串，可以参考这个答案来忽略这些列进行归一化处理。