模型的通用公式
\hat y(w,x)=w_0+w_1x_1+\dots+w_px_p
普通最小二乘法
w=\min_w{\Vert Xw-y\Vert_2}^2
LinearRegression岭回归
w=\min_w{\Vert Xw-y\Vert_2}^2+\alpha {\Vert w \Vert_2}^2
\alpha是控制系数收缩量的复杂性参数: \alpha 的值越大,收缩量越大,模型对共线性的鲁棒性也更强。
共线性:线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真
Ridge,RigdeCV:广义交叉验证(GCV),默认留一验证(LOO-CV)
Lasso
w = \min_w\frac{1}{2n_{samples}}\Vert Xw-y \Vert_2^2 + \alpha \Vert w \Vert_1
\alpha 是常数,\Vert w \Vert_1是参数向量的l_{1-norm}范数
Lasso,lasso_path:通过搜索所有可能的路径上的值来计算系数
LassoCV,LassoLarsCV,LassoLarsIC
多任务Lasso
w = \min_w\frac{1}{2n_{samples}}\Vert XW-Y\Vert_{Fro}^2+\alpha\Vert W \Vert_{21}
\\
\Vert A \Vert_{Fro}=\sqrt{\sum_{ij}a_{ij}^2}
\\
MultiTaskLasso弹性网络
w = \min_w\frac{1}{2n_{samples}}\Vert Xw-Y\Vert_2^2+\alpha\rho\Vert w \Vert_{1}+\frac{\alpha(1-\rho)}{2}\Vert w\Vert_2^2
ElasticNetCV通过交叉验证来设置参数 \alpha 和\rho
多任务弹性网络MultiTaskElasticNet
W = \min_W\frac{1}{2n_{samples}}\Vert XW-Y\Vert_{Fro}^2+\alpha\rho\Vert W \Vert_{21}+\frac{\alpha(1-\rho)}{2}\Vert w\Vert_{Fro}^2