原标题:上海宏恒智计算机1位优秀的数据分析师浅谈数据挖掘的10大算法
上海宏恒智计算机编者按:一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。
数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天宏恒智计算机就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。
用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。
在感兴趣的人或事身上投入了相对多的时间,对其相关的人事物也会投入一定的时间。那个人或事,被关注的越多,它的影响力/受众也就越大。
1、通过你的邻居的影响力来评判你的影响力,但是如果不能通过邻居来访问你,并不代表你没有影响力,因为可以直接访问你,所以引入阻尼因子的概念。
3、提出阻尼系数,还是为了解决某些网站明明存在大量出链(入链),但是影响力却非常大的情形。
买了4次牛奶,其中2次买了啤酒,(牛奶-啤酒)的置信度为2/4=0.5。
买了3次啤酒,其中2次买了牛奶,(啤酒-牛奶)的置信度为2/3-0.67。
FP-growth算法,通过构建 FP 树的数据结构,将数据存储在 FP 树中,只需要在构建 FP 树时扫描数据库两次,后续处理就不需要再访问数据库了。
沃尔玛通过数据分析发现,美国有婴儿的家庭中,一般是母亲在家照顾孩子,父亲去超市买尿不湿。
父亲在购买尿不湿时,常常会顺便搭配几瓶啤酒来犒劳自己,于是,超市尝试推出了将啤酒和尿不湿摆在一起的促销手段,这个举措居然使尿不湿和啤酒的销量都大幅增加。
2、奖权重矩阵,通过已的分类器计算错误率,选择错误率最低的为最优分类器。
3、通过分类器权重公式,减少正确样本分布,增加错误样本分布,得到新的权重矩阵和当前k轮的分类器权重。
苹果公司,软硬结合,占据了大部分的手机市场利润,两个领域的知识结合起来产生新收益。
C4.5选择最有效的方式对样本集进行分裂,分裂规则是分析所有属性的信息增益率。
信息增益率越大,意味着这个特征分类的能力越强,我们就要优先选择这个特征做分类。
拿到一个西瓜,先判断它的纹路,如果很模糊,就认为这不是好瓜,如果它清晰,就认为它是一个好瓜,如果它稍稍模糊,就考虑它的密度,密度大于某个值,就认为它是好瓜,否则就是坏瓜。
回归树:可以对连续型的数值进行预测,输出的是一个数值,数值在某个区间内都有取值的可能。
回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。
基尼系数反应了样本的不确定度,基尼系数越小,说明样本之间的差异性小,不确定程度低。
分类是一个不确定度降低的过程,CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分。
朴素贝叶斯是一种简单有效的常用分类算法,计算未知物体出现的条件下各个类别出现的概率,取概率最大的分类。
假设输入的不同特征之间是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率推算出后概率出P(AB)。
P(BA):条件概率,事件 B 在另外一个事件 A 已经发生条件下的发生概率。
SVM:Support Vector Machine,中文名为支持向量机,是常见的一种分类方法,最初是为二分类问题设计的,在机器学习中,SVM 是有监督的学习模型。
无监督学习:即在无类别标签的情况下,样本数据根据一定的方法进行分类,即聚类,分类好的类别需要进一步分析后,从而得知每个类别的特点。
找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面。
机器学习算法中最基础、最简单的算法之一,既能分类也能回归,通过测量不同特征值之间的距离来进行分类。
计算待分类物体与其他物体之间的距离,对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别。
K-means是一个聚类算法,是无监督学习,生成指定K个类,把每个对象分配给距离最近的聚类中心。
3.重新计算每个类的中心点。比如都属于同一个类别里面有10个点,那么新的中心点就是这10个点的中心点,一种简单的方式就是取平均值。
大家随机选K个老大,谁离得近,就是那个队列的人(计算距离,距离近的人聚合在一起)。
随着时间的推移,老大的位置在变化(根据算法,重新计算中心点),直到选出真正的中心老大(重复,直到准确率最高)。
EM属于软聚类,同一样本可能属于多个类别;而K-Means属于硬聚类,一个样本只能属于一个类别。所以前者能够发现一些隐藏的数据。
先估计一个大概率的可能参数,然后再根据数据不断地进行调整,直到找到最终的确认参数。
简介:上海宏恒智计算机科技有限公司。经营范围包括一般项目:技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;网络技术服务;软件开发;信息系统运行维护服务;信息技术咨询服务;大数据服务;物联网技术研发;人工智能公共服务平台技术咨询服务;数据处理服务;计算机系统服务;物联网技术服务;品牌管理;专业设计服务;人工智能硬件销售;互联网销售(除销售需要许可的商品);移动通信设备销售。
成熟不是为了走向复杂,而是为了抵达天真。那些真正成熟的人大多都是活得非常真实,他们不必掩饰什么,因为他们的内心是从容不迫的。知道什么是自己想要的,什么是自己不想要的,每一步都是按照自己内心需求行动的。毕竟,在这个世界上,没有人会愿意一直被你依赖,一辈子为你的未来买单。有事自己扛,有苦自己尝,凡事只有自己经历过,才是真正的成长。当一个人开始变得成熟,那么,他的人生就已经开始迈向崭新的旅途。上海宏恒智计算机感恩相遇!返回搜狐,查看更多