WOT干货大放送:大数据架构发展趋势及探索实践分享大数据应用

来源:互联网 / 作者:SKY / 2018-05-31 20:03 / 点击:
WOT大数据处理技术分会场,PingCAP CTO黄东旭、易观智库CTO郭炜、Mob开发者服务平台技术副总监林荣波、宜信技术研发中心高级架构师王东及商助科技(99Click)顾问

人工智能+区块链的发展趋势及应用调研报告

【Chinaz.com原创稿件】2018年5月18-19日,由51CTO主办的全球软件与运维技术峰会在北京召开。来自全球企业的技术精英汇聚北京,畅谈软件技术前沿,共同探索运维技术的新边界。而在本次大会上,除了众星云集的主论坛环节,12场分论坛更是各具特色,分别聚焦了时下最受关注的容器、AI、区块链、大数据、物联网等技术领域,是一次围绕软件与运维方向的技术干货与实践经验分享的高端技术盛宴。

WOT干货大放送:大数据架构发展趋势及探索实践分享

18日下午的大数据处理技术分会场,PingCAP CTO黄东旭、易观智库CTO郭炜、Mob开发者服务平台技术副总监林荣波、宜信技术研发中心高级架构师王东及商助科技(99Click)顾问总监郑泉五位讲师,分别针对时下热门的HTAP数据库TiDB、去ETL化的IOTA架构、数据工厂架构、实时敏捷大数据理念实践、基于场景的大数据营销等话题,展开实践分享。

WOT干货大放送:大数据架构发展趋势及探索实践分享

PingCAP CTO 黄东旭

如何运用HTAP数据库帮到你? TiDB的故事

TiDB是一套开源分布式HTAP数据库,同时提供MySQL与Spark SQL接口。PingCAP CTO黄东旭在演讲中介绍,TiDB旨在以HTAP(Hybrid Transactional/Analytical Processing)数据库的形式支持基于实时交易数据的实时业务分析需求,他分享了TiDB的设计思路,以及TiDB集群在部署与运营方面的最佳实践。

黄东旭提到,当前数据库领域面临很多问题,数据库解决方案和大数据分析引擎解决方案处于割裂的状态,由于Oracle、MySQL数据库并不是面向分布式环境而设计,因此即使勉强通过分库、分表或中间件的方式,在数据库层面做了分片,从本质上看也只是复制了相同的堆栈,而非针对分布式系统进行存储和计算优化,这正是进行跨业务查询或跨物理机查询和写入十分繁琐的本质原因。

为了解决这一问题,TiDB在架构上将计算和存储层进行高度的抽象和分离,对混合负载的场景通过IO优先级队列,智能副本调度,行列混合存储等技术使其变为可能。TiDB产品的整体架构是分层的,由分布式SQL层(TiDB)、分布式KV存储引擎(TiKV)以及管理整个集群的PD模块组成。无限水平扩展是TiDB的一大特点,这里所说的水平扩展包括两方面:计算能力和存储能力。

HTAP给开发者提供了一个实时数据分析方面的新思路,不需要再去维护另一个离线的数据仓库,既减轻了ETL的工作,又能节省很大一部分建立数据仓库所用到的存储和计算成本,HTAP将是未来的重要趋势。黄东旭介绍了HTAP数据库的三类主要应用场景,一是大中台[鸢玮1] 的场景;二是为微服务提供强一致的持久化数据层(the source of truth);三是MySQL分库分表的完美替代品。

WOT干货大放送:大数据架构发展趋势及探索实践分享

易观 CTO 郭炜

Lambda架构已死,新一代去ETL化的IOTA架构

易观CTO郭炜表示, 在大数据3.0A5,Lambda大数据架构已经无法满足企业用户日常大数据分析和精益运营的需要,去ETL化的IOTA大数据架构才是未来。郭炜从Lambda与Kappa架构的发展及优缺点展开,阐述了IOTA大数据架构的思路及优缺点,以及易观在IOTA架构领域的实践经验。

在过去Lambda数据架构是每一个公司大数据平台必备的架构,Lambda架构经历多年的发展,其优点是稳定,对于实时计算部分的计算成本可控。然而在大数据3.0A5,其致命缺点逐渐显现:一是实时与批量计算结果不一致引起的数据口径问题;二是批量计算在计算窗口内无法完成;三是数据源变化要重新开发,开发周期长;四是服务器存储压力大。

针对Lambda的部分缺陷,Kappa架构被提出来,其核心思想是通过改进流计算系统来解决数据全量处理的问题,使得实时计算和批处理过程使用同一套代码。然而Kappa架构的缺点也十分明显,那就是流式处理对于历史数据的高吞吐量力不从心,开发周期长以及服务器成本浪费严重。

为解决上述问题,郭炜针对IoTA5的特点提出了新一代的大数据IOTA架构,整体思路是设定标准数据模型,通过边缘计算技术把所有的计算过程分散在数据产生、计算和查询过程当中,以统一的数据模型贯穿始终,从而提高整体的预算效率,同时满足即时计算的需要,可以使用各种Ad-hoc Query来查询底层数据。

WOT干货大放送:大数据架构发展趋势及探索实践分享

IOTA整体技术结构分为以下几部分:

Common Data Model

Edge SDKs & Edge Servers

Real Time Data

Historical Data

Dumper

Query Engine

Realtime model feedback

IOTA大数据架构主要有如下几个特点:一是去ETL化,解决了大数据处理中ETL和相关开发的痛点;二是不用等待ETL或Streaming的数据研发和处理,实现了Ad-hoc即时查询;三是将过去统一到中央进行整体计算,分散到数据产生、存储和查询端,实现边缘计算。

WOT干货大放送:大数据架构发展趋势及探索实践分享

Mob开发者服务平台技术副总监 林荣波

数据工厂架构升级分享

Mob是全球领先第三方全景数据服务平台,其SDK产品现已累计服务23万开发者,36万个App。Mob在数据工厂的构成以及运作方面,有着全球领先的技术实力。Mob开发者服务平台技术副总监林荣波分享了数据工厂整体架构设计实践与变革历程,从数据源、数据关系以及商业化产品产出效能这三大领域,阐述数据工厂的运作模式,以及结构升级对原有问题的优化和解决方案。

林荣波总结了公司创建以来在数据采集和处理方面的三大问题:一是数据源的问题,主要包括地域和应用市场政策问题,硬件和系统兼容问题,SDK业务团队与商业化团队碰撞问题等;二是数据关系问题,数据源到成品数据链杂乱,团队学习成本加剧,开发人员进行数据加工越来越累;三是商业化产品产出效能问题,产品迭代与新品的产出效能低,大数据开发和产品服务端的耦合度高,服务稳定性、隔离性较差。

Mob针对数据源问题提出了这样的解决思路,采用公有云+私有云的方案确保数据正常,运用智能DNS+本地服务干预的方式将服务流量分发,增加服务开关设置解决数据项的政策问题,成立通用组件团队解决团队之间问题。

林荣波用“数据即血液”比喻数据关系,Mob通过表定义规划、文档规范,制定一些标准的工作流程,开发血缘管理系统,QC系统(监控数据流健康状态&容错处理),解决了数据关系的问题。

阅读延展

1
3