将model.predict()的结果与原始的pandas DataFrame进行合并？

19 浏览2023年6月23日

匿名的 2023年6月23日

0 Comments

我正在尝试将predict方法的结果与原始数据合并到一个pandas.DataFrame对象中。

from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
from sklearn.tree import DecisionTreeClassifier
import pandas as pd
import numpy as np
data = load_iris()
# 请耐心等待下面的步骤...我试图向你展示我的数据对象的结构...即我如何从原始数据转换为实际数据矩阵，而不是鸢尾花数据集
# 将特征矩阵放入dataframe的列格式中
df = pd.DataFrame(data = data.data)
# 添加结果变量
df['class'] = data.target
X = np.matrix(df.loc[:, [0, 1, 2, 3]])
y = np.array(df['class'])
# 最后，划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.8)
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
# 我现在有了预测结果
y_hats = model.predict(X_test)

为了将这些预测结果与原始的df合并，我尝试如下操作：

df['y_hats'] = y_hats

但是会引发如下错误：

ValueError: Length of values does not match length of index

我知道我可以将df分成train_df和test_df来解决这个问题，但实际上，我需要按照上述路径来创建矩阵X和y（我的实际问题是一个文本分类问题，在将特征矩阵拆分为训练集和测试集之前，我需要对整个特征矩阵进行归一化）。我应该如何将这些预测值与df中相应的行对齐，因为y_hats数组是从零开始索引的，而看起来关于哪些行包含在X_test和y_test中的所有信息都丢失了？还是说我只能先将数据框拆分为训练集和测试集，然后再构建特征矩阵？我希望只需要在数据框中的训练集行中填充np.nan值。

在使用imputer处理完数据后，怎样将它放入dataframe中？

合并预测值到现有数据框中

sckit-learn的fit()在标准化数据后会导致错误。

Scikit-Learn的Pipeline：传递了稀疏矩阵，但需要密集数据。

当预期传递一个一维数组时，传递了一个列向量 y。

Python pandas: 逐行填充数据框

在model.predict()期间使用array.reshape(-1, 1)来重新调整您的数据？

如何在Python中将k-means预测的聚类添加到数据帧的一列中

ValueError：未知标签类型：'unknown'

将您的数据进行重新整形，若您的数据只有一个特征，则使用array.reshape(-1,1)，若您的数据只包含一个样本，则使用array.reshape(1,-1)。

将多个列表添加到现有数据框的最佳方法。

scikit-learn：如何缩放回预测结果中的 'y'

创建 Pandas Dataframe 在两个 Numpy 数组之间，然后绘制散点图。

为什么在将2个数据框连接在一起时，pd.concat会创建3个新列？

如何在 pandas 中使用 sklearn 的 fit_transform，并返回 DataFrame 而不是 numpy 数组？

Python线性回归通过日期进行预测

使用pandas中的.append在for循环内部。

SciKit-Learn: 使用train_test_split遇到问题

如何在scikit-learn中预测时间序列？

从另一个具有不同索引的数据帧中添加新的列到pandas数据帧中

将model.predict()的结果与原始的pandas DataFrame进行合并？

0 答案