:零根底入门数据发掘 ——二手车交易价格猜测Baseline进步——三板斧打破baseline
异常值处理的优点:由于数据噪音比较多,所以详尽的预处理可以是模型更具泛化性,一起发掘更多特征。
离散化用于将接连的数值特点转化为离散的数值特点。是否运用特征离散化,这背面是:运用“海量离散特征+简略模型”,仍是“少数接连特征+杂乱模型”。
(2)关于非线性模型(如深度学习),一般运用“少数接连特征+杂乱模型”。
特征挑选或许会下降模型的猜测才能。由于被除掉的特征中或许包含了有用的信息,扔掉了这部分信息会必定程度上下降猜测准确率。这是核算杂乱度和猜测才能之间的折衷:
均匀肯定差错(Mean Absolute Error,MAE),均方差错(Mean Squared Error,MSE),均匀肯定百分差错(Mean Absolute Percentage Error,MAPE),均方根差错(Root Mean Squared Error), R2(R-Square)
:在传统的调参过程中,咱们经过练习算法手动查看随机超参数集,并挑选契合咱们方针的最佳参数集。
:网格查找是一种根本的超参数调优技能。它类似于手动调优,为网格中指定的一切给定超参数值的每个摆放构建模型,评价并挑选最佳模型。比方:两组超参数k_value =[2,3,4,5,6,7,8,9,10] & algorithm =[ auto , ball_tree , kd_tree , brute ],在这个比方中,它一共构建了9*4 = 36不同的模型。
:运用随机查找替代网格查找的动机是,在许多情况下,一切的超参数或许不是平等重要的。随机查找从超参数空间中随机挑选参数组合,参数由n_iter给定的固定迭代次数的情况下挑选。试验证明,随机查找的成果优于网格查找。
:贝叶斯优化归于一类优化算法,称为根据序列模型的优化(SMBO)算法。这些算法运用从前对丢失f的调查成果,以确认下一个(最优)点来抽样f。
:这种办法是均匀法的扩展。考虑不同模型的才能不同,对终究成果的奉献也有差异,需要用权重来表征不同模型的重要性importance。
: 模型作用进行排名,假定排名分别是1,2,3,那么给这三个模型赋予的权值分别是3/6、2/6、1/6。
Blending,其实和Stacking是一品种似的多层模型交融的方式,把Stacking流程中的K-Fold CV 改成 HoldOut CV。其主要思路是把原始的练习集先分红两部分,比方70%的数据作为新的练习集,剩余30%的数据作为测验集test。
在第一层,咱们在这70%的数据上练习多个模型,然后去猜测那30%数据的label,一起也猜测test集的label。
在第二层,咱们就直接用这30%数据在第一层猜测的成果做为新特征持续练习。即用test集第一层猜测的label做特征,用第二层练习的模型做进一步猜测