在大数据年代,怎么使用数据发掘技能深化开发人口普查数据,进步数据的使用率,是值得深化研讨的课题。
数据发掘是对海量的、随机的、不完整的、含糊的、不同类别的以及有噪声的数据,提取其间隐含的并可为人们把握且具有潜在价值的常识的进程。运用数据发掘技能,能够处理人口数据的开发、使用以及同享;能够打破以往对人口数据信息的简略使用,完成对数据信息的深度探究;能够为学术界在国内人口学研讨上完成资源同享。
在这里,笔者以使用决策树模型算法剖析人口信息的相关性为例,简略介绍数据发掘技能在人口普查数据开发中的使用。
由规矩(一)的第1项可知,当年纪小于等于5岁的时,受教育程度都是儿童水平,10个数据中悉数满意此状况,置信度为100%。经过算法,即可给出年纪小于5岁的状况下受教育遍及程度为儿童水平的定论。
由规矩(一)的第2项可知,当年纪大于等于6岁且小于等于11岁的时,受教育程度是小学的有9个数据,置信度为90%;受教育程度是初中的有1个数据,置信度为10%。经过算法,即可给出年纪在6至11岁的状况下受教育遍及程度为初中的定论。
以此类推,经过决策树模型算法,置信度越高的状况,则以为相关性越大,经过算法给出的趋势和估计也越挨近置信度高的成果。在此,以一个简略的数据库,得出一个众所周知的成果,是为了直观、扼要的介绍使用决策树模型算法在数据发掘技能中的中心思维和大致进程。
接下来,以第七次全国人口普查中的相关目标为根底,再树立一个略微杂乱的数据库:
由规矩(二)的第1项和第2项可知,住在一区的男性,租房的数据有40个,置信度为90.9%,自有住宅的数据有4个,置信度为9.1%。经过算法,即可给出寓居在一区的男性遍及租房寓居的定论。
由规矩(二)的第7项和第8项可知,住在二区的女人,租房的数据有4个,置信度为9.1%,自有住宅的数据有40个,置信度为90.9%。经过算法,即可给出寓居在二区的女人遍及具有自有住宅的定论。
以此类推,一个简略的数据库,经过数据发掘,即能得出住宅状况、性别散布等多项内容。关于政府拟定房地产相关方针、规划住宅建设等都具有很高的参考价值。