具有字符串/分类特征(变量)的线性回归分析?

9 浏览
0 Comments

具有字符串/分类特征(变量)的线性回归分析?

回归算法似乎只适用于以数字表示的特征。例如:

不带类别特征的简单数据

这个数据集不包含类别特征/变量。很明显如何对这个数据进行回归分析并预测价格。


但是现在我想对包含类别特征的数据进行回归分析:

带有类别特征的数据集

这里有5个特征:District、Condition、Material、Security、Type。


我该如何对这些数据进行回归分析?我是否需要手动将所有的字符串/类别数据转换为数字?我的意思是是否需要创建一些编码规则,并根据这些规则将所有数据转换为数值型数据。是否有一种简单的方法可以将字符串数据转换为数字,而无需手动创建自己的编码规则?也许在Python中有一些可以用于此目的的库?是否有一些由于“错误编码”而导致回归模型出现问题的风险?

0