火狐体育直播首页:Apache RocketMQ + Hudi 快速构建 Lakehouse

发布时间:2022-09-06 09:43:58 来源:火狐体育app官方 作者:火狐app体育下载

  本文标题包含三个关键词:Lakehouse、RocketMQ、Hudi。我们先从整体Lakehouse架构入手,随后逐步分析架构产生的原因、架构组件特点以及构建Lakehouse架构的实操部分。

  企业内部许多数据管道通常会并发读写数据。对ACID事务的支持确保了多方并发读写数据时的一致性问题;

  Lakehouse应该有一种方式可以支持模式执行和演进、支持DW schema的范式(如星星或雪花模型),能够对数据完整性进行推理,并且具有健壮的治理和审计机制;

  使用的存储格式是开放式和标准化的(如parquet),并且为各类工具和引擎,包括机器学习和Python/R库,提供API,以便它们可以直接有效地访问数据;

  Lakehouse可以直接在源数据上使用BI工具。这样可以提高数据新鲜度、减少延迟,并且降低了在数据池和数据仓库中操作两个数据副本的成本;

  在实践中,这意味着存储和计算使用单独的集群,因此这些系统能够扩展到支持更大的用户并发和数据量。一些现代数仓也具有此属性;

  Lakehouse可用于存储、优化、分析和访问许多数据应用所需的包括image、video、audio、text以及半结构化数据;

  包括数据科学、机器学习以及SQL和分析。可能需要多种工具来支持这些工作负载,但它们底层都依赖同一数据存储库;

  实时报表是许多企业中的标准应用。对流的支持消除了需要构建单独系统来专门用于服务实时数据应用的需求。

  从上述对Lakehouse架构的特点描述我们可以看出,针对单一功能,我们可以利用某些开源产品组合构建出一套解决方案。但对于全部功能的支持,目前好像没有一个通用的解决方案。接下来,我们先了解大数据时代主流的数据处理架构是怎样的。

  为什么会产生这么多开源产品呢?首先在大数据时代数据量越来越大,而且每个业务的需求也各不相同,因此就产生出各种类型的产品供架构师选择,用于支持各类场景。然而众多的品类产品也给架构师们带来一些困扰,比如选型困难、试错成本高、学习成本高、架构复杂等等。

  大数据领域的处理处理场景包含数据分析、BI、科学计算、机器学习、指标监控等场景,针对不同场景,业务方会根据业务特点选择不同的计算引擎和存储引擎;例如交易指标可以采用binlog + CDC+ RocketMQ + Flink + Hbase + ELK组合,用于BI和Metric可视化。

  Lakehouse架构是多层架构的升级版本,将存储层复杂度继续降低到一层。再进一步压缩计算层,将消息层和计算层融合,RocketMQ stream充当计算的角色。我们得到如下图所示的新架构。新架构中,消息出入口通过RocketMQ connector实现,消息计算层由RocketMQ stream实现,在RocketMQ内部完成消息计算中间态的流转;计算结果通过RocketMQ-Hudi-connector收口落库Hudi,Hudi支持多种索引,并提供统一的API输出给不同产品。

  对消息产品和数据湖产品的稳定性、易用性等要求高,同时消息产品需要支持计算场景,数据湖产品需要提供强大的索引功能。

  同时,可以利用RocketMQ stream在RocketMQ集群上将计算层放在其中集成,这样就将计算层降低到一层,能够满足绝大部分中小型大数据处理场景。

  RocketMQ作为一款“让人睡得着觉的消息产品”成为业务消息领域的首选,这主要源于产品的以下特点:

  NameServer节点无状态,可以非常简单的进行横向扩容。Broker节点采用主备方式保证数据高可靠性,支持一主多备的场景,配置灵活。

  RocketMQ的运维成本很低,提供了很好的CLI工具MQAdmin,MQAdmin提供了丰富的命令支持,覆盖集群健康状态检查、集群进出流量管控等多个方面。例如,mqadmin clusterList一条命令可以获取到当前集群全部节点状态(生产消费流量、延迟、排队长度、磁盘水位等);mqadmin updateBrokerConfig命令可以实时设置broker节点或topic的可读可写状态,从而可以动态摘除临时不可用节点,达到生产消费的流量迁移效果。

  RocketMQ支持的消息类型包括:普通消息、事务消息、延迟消息、定时消息、顺序消息等。能够轻松支持大数据场景和业务场景。

  压测场景主备同步复制模式,每台Broker节点都可以将磁盘利用率打满,同时可以将p99延迟控制在毫秒级别。

  RocketMQ 5.0是生于云、长于云的云原生消息、事件、流超融合平台,它具有以下特点:

  如下图所示,计算集群(Broker)主要包括抽象模型和相对应的协议适配,以及消费能力和治理能力。存储集群(Store)主要分为消息存储CommitLog(多类型消息存储、多模态存储)和索引存储Index(多元索引)两部分,如果可以充分发挥云上存储的能力,将CommitLog和Index配置在云端的文件系统就可以天然的实现存储和计算分离。

  相比传统数据流,RocketMQ connector数据流的不同在于将 source 和 sink 进行统一管理,同时它开放源码,社区也很活跃。

  (3)组件:Manager统一管理调度,如果有多个任务可以将所有任务统一进行负载均衡,均匀的分配到不同Worker上,同时Worker可以进行横向扩容。

  Hudi 是一个流式数据湖平台,支持对海量数据快速更新。内置表格式,支持事务的存储层、一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具。Hudi 可以将存储卸载到阿里云上的 OSS、AWS 的S3这些存储上。

  (1) 启动或使用现有的RocketMQ集群,并初始化元数据Topic:

上一篇:段一鸣|合法爬虫行为的入罪思考——大数据环境下公民个人信息保护视角
下一篇:数智换商让优质用户倾心追随

相关信息

  • 数智换商让优质用户倾心追随

    数智换商让优质用户倾心追随

      以人为本、利他思维、共创共赢;提升消费,拉动内需;改变交易方式,促进共同富裕……这些,还不止这些,懂的,都懂!   为了便于更多的人更容易理解,在此独辟蹊径,单就“产品”角度予以通俗解说。   企业能够生存的第一个理由是可提供产品,产品能力是每家企业和个人的必备能力之一。   什么是产品?怎么样打造出好产品?像数智换商一样让用户殷切追随?我们第一步从基本概念开始做探讨。   “产品概念”是注入客户脑中的一种主观意念。这也是我们大家可以在产品上赋予很多想象的地方,那些产品做得很好的人,很成功的地方在于他看似给你的东西都是最普通的,但他给你的感受往往是最好的,原因就在于他对产品的理解非常高。   比如,瑞士手表深谙此道。在瑞士所诞生的这些著名的手表品牌,并不是纯粹的时间刻度,而是深邃、守约、精准以及典雅的象征。当腕上戴着其中一款瑞士手表的时候,客户内心中所感受到的已不再是时间,而是承诺和确信。   四是概念,把前三个东西总结出变成一个概念。产品就这样做出来了。但在两种情况下,我们对产品的关注度不够:   第一,我们从始至终认为产品研究开发、产品研制是产品开发部的事情。绝对
  • 如何让用户倾心追随

    如何让用户倾心追随

      数智换商拥有了很多的用户倾心追随,原因是数智换商用数字化解决方案和服务帮助优质用户提高效率和竞争力,实现数字化转型。数智换商拥有丰富的经验和专业相关知识,可以依据用户的具体需求,提供定制化的解决方案和支持,让优质用户获得更好的业务成果。   1. 以人为本:数智换商模式注重客户的真实需求,通过获取用户数据和反馈,持续改进服务和产品,提高用户满意度。   2. 利他思维:数智换商模式强调企业与用户的互惠互利关系,通过厂家让利给用户更好的提供更多的优惠和特权,促进用户对企业的忠诚度,以此来实现双方一同发展。   3. 共创共赢:数智换商模式鼓励用户参与到企业的运营中来,通过提供数据、意见和建议等方式,与企业一起创造价值,实现共同成长。   4. 提升消费,拉动内需:数智换商联结专精特新厂家为用户更好的提供更多的让利优惠,促进用户消费,拉动内需,促进经济发展。   5. 改变交易方式,促进共同富裕:数智换商模式通过智能化交易方式,降低交易成本,提高效率,促进资源优化配置,实现共同富裕。   为了便于更多的人更容易理解,在此独辟蹊径,单就“产品”角度予以通俗解说。  
  • 数智换商平台+新个体

    数智换商平台+新个体

      未来不再有老板、中间商、中心化的概念,所有的公司都将变成创业平台,任何一个人都将成为一个中心,都是创业者。那么,想要在新的市场环境下抢占商机,必须把公司平台化、员工合伙化,用户创客化,重新布局!   在传统的市场形态中,用户与生产商、品牌商之间都是分离的状态,上游的商家根本不知道用户是谁,即便用户买产品以后也无法与其取得联系。因此,以前的上游企业都是通过你自己的判断与意愿大规模的生产,然后依托流通市场、终端市场去做产品下沉。在此过程中,市场也是碎片化的,需要更加多的小公司、个体户参与到商业活动中,去实现产品的流通下沉,以货为中心赚差价。但随着网络的兴起,整个市场正在被颠覆,用户都能够依托互联网与上游的供应链零距离连接,利用互联网的方式去反馈诉求,从而满足多种的需求。   随着人们需求的多样化与个性化,商业的形态就会从批量生产到流通零售,变成去中间化、去中心化、把每个人作为一个中心。那么,想要满足新的市场需求,首先要改变经营策略,把公司平台化、员工合伙化,用户创客化,让更多人参与到创新、创业过程中,实现整体市场的良性发展。   目前市场产能已经严重超过标准,靠在消费市场
  • 【48812】数智换商助推创业赋能实体为中小微企业未来的开展注入新动力

    【48812】数智换商助推创业赋能实体为中小微企业未来的开展注入新动力

      国庆遇上中秋,我国人把8天小长假过出了年味。据悉双节期间全国共招待国内游客6.37亿人次,铁路发送旅客12687万人次,国庆档票房近40亿,武汉市8天招待游客1882.46万人次……这些数字,让人振作又来之不易,一起也让全世界的观众仰慕不已。此番热烈现象,证明我国抗疫的成功经验,也预示着我国的经济复苏。   跟着商场秩序的逐渐安稳,实体经济开展的质量和效益亟需不断的进步。数智换商本着协作共赢,赋能中小微企业转型晋级,于2020年8月份落户海南海口市,建立换商数智科技(海南)有限公司。   海南是未来10年我国经济新引擎的中心,公司把总部建立在这里,习惯商场开展需求,依托海南自贸港的区位、资源、方针等前端优势,安身海口,辐射全国,为国民经济的开展腾飞助力。   后疫情年代,新基建与新消费是康复经济稳步的增加的两条腿。数智换商深谙此道,注重人才的培育,具有专业IT技能团队,将充分运用AI、区块链、大数据、物联网等最前沿的信息技能力量来赋能收购,节约本钱、进步功率、操控危险等,另一方面还将结合数智换商的经济理论,全面立异传统的商业经济模式。   为满意新式商场消费需求

手机扫一扫添加微信