数据发掘算法详解 数据预处理:数据发掘技能是面向大型数据集的,并且源数据库中的数据是动 态 改变的,数据存在噪声、不确定性、信息丢掉、信息冗余、数据散布稀少等问题 这就 要求咱们有必要对原始数据进行清洗,尽或许的确保数据的质量。别的,因为发掘的实践 需求,往往需求对原始数据进行一系列的转化和处理,然后得到咱们真实 需求的数据。 此外,在实践状况中,为了进步建模速度,咱们或许只需求部分数据参加建模,并指定 一些必要的特点。一切这些在建模前对数据的处理操作,咱们都 称其为”数据预处理”。 数据预处理的好坏在很大程度上决议了数据发掘的质量。 结点介绍: 本系统供给的数据预处理办法首要有:过滤、抽样、公式、衔接、联合、排 序、字段过滤、代替规矩、类型转化、装箱。 过滤:经过对指定字段进行条件约束(大于、小于、等于、相似等条件),从 而 对数据进行挑选,过滤掉不需求的数据。 抽样:经过各种抽样办法(随机抽样、按份额抽样、按指定数据量)抽取一部 分 数据。 公式:公式和参数模型相对应。经过参数模型结构公式,经过公式操作可对由 源数 据结构新字段。 联合:依照指定字段将两张表进行并集操作排序:依照指定字段进行排序操 作 衔接:依照指定字段将两张表进行相关操作 代替规矩:缺失值处理办法,用某字段的最小值(最大值、均值等)替换该字 段 中的缺失值,或删去该行或该列。 字段过滤:对数据进行汇总操作。 类型转化:不同数据类型之间进行转化。首要有数值型转化为字符型,字符型 转化 为数值型,日期型转化为字符型。 装箱:对数据进行离散化。可独自对不同数据类型的字段进行箱操作也可对不 同 数据类型字段的组合进行装箱操作。统计剖析: 本系统供给的统计剖析办法有:相关剖析、概括剖析和动摇剖析。 相关剖析:相关性衡量是两个变量间线性关系强弱程度的一种测度。假如一个 变 X Y 1 1 -1 量 刚好可表明成另一个变量的 的线性函数,那么相关系数为 或.取 或 依靠 0 于两个变量是正相关或负相关。假如两变量间的线性相关系数为 ,这 意味着两变量 无线性关系。一组变量之间的相关系数为核算回归及其它统计量供给 了重要的信息。 本系统供给了三种相关剖析办法:线性相关剖析、Spearman等 级剖析、Kendall等 级剖析。对应的相关系数分别是线性相关系数、 Spearman 相关系数、Kendall 相关系数。 线性相关系数:假设有一列数对(x l,yl). (x 乙y 2)、、 (x n , y n ) f 则其相关系数为: r = (x -)(y -) x y ,这个系数是将 的均值和 的均值作为各自数 x y 据的中心,再核算 和 到中心的距离。线性相关系数刻画了变量之间线性 联络 的亲近程度。 ( Spearman 相关系数:对一列数对(x 1, y 1)、 x 2, y 2)、 x (x n , y n ) f 令 一切 xi X 在 样本 11 r i y i Y s i, r ,i , s s i Spearma n 中的秩为 ,一切 在 样本中的秩为 记 二 二工 则 n n i =1 i =1 相关系数为:rs = ( I r s _ ■)( i ) Spearman x r 相关系数是将 秩的均值 y s , X V 和 秩的均值 作为各自数据的中心 再核算 秩和 秩到中心的距离。 Spearman , 相关系数合适硏究一般散布的数据整体 且对有反常值的观测数据 有稳健性。 Kendall , 相关系数:是由配对数和不配对数核算相关的测度 公式为: T sgn(x i -xj) sgn(y i -yj) T 0 其间: 二 n (n -1) 2 ,T1= / (t -1) 2 ,T2 = (u -1) 2 ,t i, u i 分别是 X ,Y i 的第 个结 (tied , n 持平的秩)包括的观测值(元素)个数。 是总观测个数, □ 1,当 z
00 概括剖析:核算某字段的一些根本统计量(最小值、最大值、均值、标准差 等) 动摇剖析:首要剖析方针字段随时刻等序列字段的改变而改变的状况。线箱 图:两个 端边分别是下四分位数、上四分位数,中心两道线分别是中位数和均值, r 1=q 3-q 1 下截断点q 1-1.5r 1,上截断点q 3 + 1.5r 1,弱反常点:q 3+3r q1-3r1 雷达图: 数据发掘算法: 重要特点算法:使用特点重要性算法核算各字段同方针字段之间的相关度大 小, 然后在确保模型准确度的前提下尽或许的辅导去除不必要的字段,然后减小建 模时的 核算量,加速建模速度。 mdl 最小描绘长度办法 ( )的根本思想:找出一个模型使得模型的算法复杂度以 及与该模型相适应的练习数据的描绘长度的和最小,是对模型复杂度和模型预 测精度 的一个折中。mdl 倾向于挑选最简略的模型。算法设置: 抽样:为了进步速度可对数据进行抽样。 装箱:即对数据进行离散化。分数值型装箱和字符型装箱。数值装箱有分位数 和 [mimmax ] n n 等距离装箱。设字段取值区间 ,若装箱数为 ,行将数据离散化 为 个区间 n 段,分位数装箱是指将数据分位 个区间段且每个区间段内的数据数 量持平。等距离 d= ( min,max /n,l [min,min + d] , n ^j[min+ (n- 装箱是数据区间持平如: ) 段为: 段 l)*d max] topn n + 1 n / 字符型装箱办法: f 即字段被 分为 类,呈现频率最高的前 个 n n + 1 为 类,其它的都归为 类。 分类猜测:分类的意图是结构一个分类函数或分类模型(分类器),该模型能 把 数据库中的数据项映射到某一个给定类别。分类可用于猜测,猜测的意图是从历 史数据 中主动推导出对给定数据的推广性描绘,然后能够对未来数据进行猜测。 本系统供给了四种分类算法,首要是为了适应对不同数据进行剖析,有时候同 — 组数据经过不同的模型的建模成果进行比较,寻觅最优模型。其间分类回归树和 c45 决 策树的建模成果都能够用树形展现并发生相应的规矩集,可统称为决议计划树 办法。决议计划 树办法是使用最广泛的一种逻辑办法之一,它从一组无序、无规矩的事 例中推理出决议计划 树表明方式的分类规矩。决议计划树分类办法选用自顶向下的递归方 式,在决议计划树的内部 结点进行特点值的匕匕较并依据不同的特点值判别从该结点向下 的分支,在决议计划树的 叶结点得到定论。所以从决议计划树的根到叶结点的一条途径就对 应着一条合取规矩,整棵 决议计划树就对应着一组析取表达式规矩。(一般依据信息增 益准则建树) 决议计划树算法的一个最大长处是它在学习过程中不需求使用者了解许多布景知 识。决议计划树是一个相似于流程图的数形结构,其间每个结点表明在一个特点上的测 试,每个分支代表一个测验输出,而每个树叶结点代表类或类散布。数的最顶层是 根 结点。分类回归树:算法设置:抽样: 算法:可设置树的最大深度,当练习数据字段个数、记载条数匕匕较多时,对应 的树深度或许比较大,则相应的规矩也匕匕较长,有时候有些长规矩对剖析数据不太 重要,因而,能够经过设置树的最大深度对规矩进行简化。 剪枝:当断定
GB T 32610-2016_日常防护型口罩技能规范_高清版_可检索.pdf