|
目录
首先,哪些企业适合建设数据中台?
其次,数据中台如何建设?
最后,面临的挑战?
经常看到“数据中台”这个名词,很多大厂也都在打造数据中台,那么数据中台建设需要注意哪些问题呢?下面记录一下个人理解,围绕着是否要建设?如何建设?技术挑战三个方面,以便在将来汇报的时候用到。
首先,哪些企业适合建设数据中台?
没有数据的企业肯定不适合建设,那么有数据就一定需要吗?不一定。要看数据的存储方式,仅仅有关系型数据库和hadoop也是不够的,关键是这些数据是否值得去做分析和处理。如果未来5年,数据都不会有分析的需求或者企业的投入不足以覆盖大数据人才、设备的投入,那么数据中台只能是梦想。
说一个比较实际的,可以搞分期(不是贷款),一期可以先围绕着关系型数据库建设,毕竟可以复用现有的很多工具和设备,投入不会太大。
等到尝到甜头了,再围绕hadoop玩,那个时候,财大气粗,人强马壮,一切都不是问题。
其次,数据中台如何建设?
数据处理主要分为两类:OLTP和OLAP,区别就是,一个是处理(Transaction),一个是分析(Analytical)。数据中台主要为OLAP提供数据支持,既可以实时,也可以离线。
离线场景:例如批处理,主要进行数据分层处理,准备层、操作数据层、模型层、集市层。数据经过ELT流程(任务调度编排、数据采集、加工、推送等作业),最终将结果数据存储到集市层,由数据服务提供给下游应用。
实时场景:主要是针对时效性要求高的数据分析展示场景,一般指整个数据加工链路在1分钟内完成。一般采用基于业务生产库日志变化捕获的技术,同步变化数据到消息中间件(Kafka),再通过实时计算引擎(Flink)进行加工计算,最后按下游应用需求分发到不同的目标库中。
最后,面临的挑战?
人员挑战,除了常规关系型数据库的sql编写能力之外,还需要掌握基于大数据环境的sql编写、调优能力。两者的处理方式不一致,需要转换思维方式。
技术挑战,高度集成、一体化、安全性。
上一个表格说明:
大数据整体技术架构图
| 数据输出 | 数据服务|智能BI | 数据安全 | | 作业管理 | 任务调度 | Kerberos | | 计算引擎 | Hive| Spark| Flink| Lmpala| Yarn | Sentry | | 数据存储 | HDFS| Hbase |ES |Kafka |Oracle | 加解密 | | 数据集成 | 离线采集| 实时采集 | 数据脱敏 |
|