大数据架构有哪些?应该如何理解?

2020-12-02科技717

BI系统,大概的架构图如下:

核心的模块是Cube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX,MDX表达式具有更强的多维表现能力,所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供了BI套装软件服务,轻易便可搭建出一套Olap分析系统。

以Hadoop体系为首的大数据分析平台:Hadoop体系的生态圈也不断的变大,目前围绕Hadoop体系的大数据架构大概有以下几种:

传统大数据架构

其定位是为了解决传统BI的问题,简单说,数据分析的业务没有发生任何变化,依然保留了ETL的动作,将数据经过ETL动作进入数据存储。

适用场景:

数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。

适用场景:

预警,监控,对数据有有效期要求的情况。

Lambda架构

Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性,因此Lambda最外层有一个实时层和离线层合并的动作,此动作是Lambda里非常重要的一个动作,大概的合并思路如下:

适用场景:

同时存在实时和离线需求的情况。

Kappa架构

Kappa架构在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

适用场景:

和Lambda类似,改架构是针对Lambda的优化。

Unifield架构

Unifield架构更激进,将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。

适用场景:

有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划。

相关:

舆情大数据系统架构设计与实现:https://www.toutiao.com/i6537119210336682510/

大数据架构的分析应用:https://www.toutiao.com/i6613946595891216910/

相关文章

都说梅西很厉害,但他厉害在哪呢?

梅西的厉害在于,即使成绩不好,没拿世界杯,没拿美洲杯,欧冠连续被逆转、数据下降、没有在巴萨以外证明自己并取得好成绩,这些不利因素,依然阻挡不了业内名宿、资深专业媒体、广大球迷对他的推崇,他们心中依然不服,为他鸣不平。 这就是梅西的厉害。 说明,集体荣誉、集体成绩和数据,对于梅西来说,已经是一种亵渎和...

在你充过钱的游戏中,哪些游戏是你最后悔的?

看到这个问题我第一个想到的就是《火影忍者》…… 因为问题的配图原因,所以我第一个想到的就是这个游戏,当时脑袋一热充了2000大洋,一周后弃坑了。弃坑的那一瞬间觉得特别后悔。我买NS游戏的话2000块可以买4个游戏。而这2000块扔到火影忍者手游里,仅仅让我的排名往前走了那么50名,感觉是相当的不值。...

led通过lm80认证说明什么?

IESLM-80主要测的是LED光源的流明维持,这一测试针对的是光源厂家,所以生产灯具的厂家只需要向你们的光源厂家要这一份测试报告就好了。LM-80是针对LED光源光通维持率的测试方法针对LED光源而非LED灯泡和灯具,包含测试内容:1、光源在不同温度下的光通维持率2、光源在不同温度下的色度维持率L...

酒店巨头华住陷“丑闻”,1.3亿人开房记录疑似被网上售卖,你怎么看?

如果一旦查出属实,那么可能这次数据泄露算是国内目前严重的一次信息泄露事件。 某网站中文论坛中出现一个帖子,声称售卖华住旗下所有酒店数据,汉庭酒店、美爵、禧玥、漫心、全季、宜必思、海友等多家酒店都包含在内。根据帖子内容,售卖的数据分为三个部分:华住官网注册资料,包括姓名、手机号、邮箱、身份证号、登录密...

DNF萌新回归想买个称号,请问使徒降临和超越极限者哪个好,买哪个性价比更高一些?

大家好,我是爱玩DNF的小欧。DNF中称号是提升伤害的主要装备之一,拍卖行也是有很多称号在售卖的,比如往年的春节称号,金秋称号,以及换装称号等。 今年的春节礼包曝光之后,坚持了三年的龙之挑战也将倒下了,今年春节称号较以往的春节称号多了3%力智,2%白字,这也是龙之挑战为什么会倒下的原因,但这个称号会...

中国RISC-V产业联盟成立,能打破x86和ARM的垄断吗?

2019年RISC-V架构成为硅谷、中国以及全球IC设计圈的热门话题,有人将它比作半导体行业的linux,这种架构是一种简单、开放、免费的指令级架构,这个架构可被用于任何目的、允许任何人设计、制造和销售基于RISC-V的芯片和软件。RISC-V的生态体系正在全球快速崛起,成为半导体产业、物联网以及边...

学大数据之后能做什么工作?

1、数据挖掘工程师 做数据挖掘要从海量数据中发现规律,这就需要一定的数学知识,最基本的比如线性代数、高等代数、凸优化、概率论等。 PS:经常会用到的语言包括Python、Java、C或者C++,有些人用Python或者Java比较多。有时用MapReduce写程序,再用Hadoop或者Hyp来处理数...

知名酒店泄露5百万用户数据,上一次是近4亿开房记录,怎么看?

查实了一下事件,3月31日CNET报道,万豪酒店宣布,发生了一起数据泄露事件,近520万房客的个人信息被泄露,可能包含姓名、地址、email、电话号码、生日,还有部分用户的房间偏好等详细信息。 一,原因调查万豪同时公布说,正在对事件进行调查,并且已经发送邮件通知受影响的房客,将为他们免费提供一年的个...

mysql触发器出现错误?

解决方法如下: 1)导入数据的用户不仅需要CREATE ROUTINE, ALTER ROUTINE, CREATE TRIGGER, ALTER TRIGGER, CREATE FUNCTION 和 ALTER FUNCTION 权限,还需要SUPER privileges 权限,使用超级用户导入...

能推荐几本好看耐读的网络小说吗?

书荒必备,即将完本的11本连载经典网络小说,本本数百万字! 橙瓜网文 2017-12-25 16:18:29大家长期吐槽,说经典的小说基本都看过了,连载小说更新太慢又不想等待。 今天我在这里给大家整理了一批连载小说中字数比较多的一批,而且也是最为经典的一批,估计在1-2年内完本的可能性很高,相信这样...

怎样申请健康通行码,健康通行码从哪里申请?

感谢邀请! 现在乘坐公共交通,或去外地一般需要两个码。健康码和健康通行码。 一般是在各省的微信公众号上可以申请。 也可以在微信上,点击“我”,进入“支付”,里面有防疫健康码。 健康通行码管理信息系统以真实数据为基础,连通重点人员动态管控清单等相关数据库,根据群众申报信息与后台数据的校验比对结果发放“...

软银弃用华为4G设备,华为会弃用日本软银架构吗?

软银弃用华为4G设备,华为会弃用日本软银架构吗?软银弃用华为4G设备虽然有其自身的某些原因存在,但也有不得不保持与其政府一致的必要性。虽然这一决定非常令人遗憾,但反过来华为还不得不使用ARM架构,是弃不掉。 目前华为麒麟芯片采用的是公版ARM架构基础上进行开发出来的,并且在市场上已经取得了相当大的反...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。