【导读】近来,由清华大学研讨院、北京智源人工智能研讨院、清华 — 我国工程院常识智能联合研讨中心一起编写的《人工智能之数据发掘》陈述正式发布。陈述针对数据发掘的情况进行了深度剖析,从数据发掘的概念内在、关键技能、人才研讨、运用场景、开展趋势 5 个部分,介绍数据发掘的最近研讨开展,并展望了数据发掘的未来开展趋势。
数据发掘旨在从数据中发掘常识,是一种跨学科的计算机科学分支,运用人工智能、机器学习、统计学和数据库等交叉学科范畴办法在大规模、不完全、有噪声、含糊随机的数据会集主动查找躲藏于其间的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表明,是常识发现的一个关键步骤。陈述别离对数据发掘十大经典算法、统计数据剖析办法、科技情报发掘技能、交际网络与图数据发掘技能、自然语言数据发掘技能、多媒体数据发掘技能、大规模数据发掘技能、数据隐私维护和安全等方面进行了具体介绍和深入剖析,并解读了 2013 年 - 2020 年 SIGKDD 会议录入的代表性论文。陈述旨在为读者了解数据发掘范畴基础研讨和运用研讨等方面的代表性效果、研讨意向和开展供给信息窗口。陈述还介绍了数据发掘技能在零售业、旅游业、物流业、医学界、金融业和电信业范畴的运用。陈述依托清华大学自主研制的 AMiner 渠道,剖析了数据发掘范畴 21,018 位研讨学者,并以他们宣布的论文作为底层数据,从学者散布、学术水平、国际协作、学者活动等维度,比照剖析了国内外组织、学者在该范畴的开展情况,并使用 AMiner 渠道的学者画像功用,展现了国内外代表性学者的具体信息,最终给出了相应的对策主张。下面选取具有代表性的剖析维度进行阐明:技能研讨开展趋势
数据发掘和交际网络的研讨热度居高不下,近五年来大数据、反常检测和时刻序列发掘的研讨热度出现显着的上升趋势。别的,聚类和分类的研讨热度一向维持在较高水平,但在近五年内出现出显着的下滑趋势。
AMiner 渠道数据显现,国际范围内数据发掘范畴高水平学者首要会集在以美国为首的北美洲、以英国、意大利为首的欧洲,和以我国为首的亚洲。
图 3丨数据发掘范畴 h-index 排名前 1000 学者的全球散布地图
我国数据发掘范畴高水平学者首要散布在京津冀区域、长江三角洲区域、广东省、香港特别行政区等我国东部发达区域。
图 4丨 数据发掘范畴 h-index 排名前 1000 学者的我国散布地图
数据发掘范畴高水平论文总被引频次最高的国家是我国,其次是美国,但两者相差不大。中美两国在论文总被引频次、论文宣布量、学者数量等目标上均远高于其他国家。
数据发掘范畴高水平论文总被引频次排名前 10 的全球组织中,我国仅清华大学上榜(排名第 5),其他 9 所组织均在美国。
在数据发掘范畴协作高水平论文数量排名前 10 的国家中,大部分国家都倾向与我国(与其协作的国家数量为 6 个)、美国(与其协作的国家数量为 5 个)协作,其间中美两国协作最严密。
图 5丨全球各国数据发掘范畴论文协作网络图表 3 数据发掘范畴协作论文数量排名前 10 的国家列表
2010 年 —2020 年间,美国数据发掘范畴学者流入和流出人次均位居全球首位,我国尽管位居第二,但约为美国一半。美国和澳大利亚在该范畴学者流出人次大于流入人次,而我国、英国、印度、德国等国家相反。
2010 年 —2020 年间,我国各省市中,北京市的数据发掘学者流入和流出的人次显着高于其他区域。北京、上海和香港在该范畴学者流入人次均高于流出人次,而南京、西安、武汉和杭州等地与此相反。
陈述使用 AMiner 渠道的 “学者画像” 功用,展现了数据发掘范畴国内外具有代表性的专家学者信息,包含基本信息、研讨爱好、学术目标、科研网络等。