首页 > 新闻中心 > 互联网 > 动态 > 正文

破解数据囤积,华为云智能数据湖技术解密
2018-11-08 14:32   牛华网      我要评论()
字号:T|T

如果有人问数据湖是什么,我会告诉他们,是“桶装水”的集合。

随着企业业务的发展,数据出现井喷,数据量呈几何增长,数据来源和类型更加多元化。传统数据仓库就如同“桶装水商店”,已经承载不了全部水体,因此需要一个可以满足存储需求的,新的架构作为大数据的支撑。

这就是数据湖。它汇聚不同数据源的溪流,包括大量无序的非结构化数据(文本、图像、声音、网页等)。我们把它倒入数据湖,然后开始探索该数据。我们希望这是一个包含所有数据的,一个超快、易于访问的存储库,能解决集成难题的终极方法。

但实际上,存储库反而变成了一个缓慢、僵化的数据沼泽。大数据需要特殊的专长来分析数据。使用原始数据得出分析结论,将持续在数据质量和治理方面发出危险信号。业内给这种问题起了个名字,叫数据囤积障碍。

爆炸式增长的数据及数据孤岛

你应该明白了。只为了保存数据而存储数据,不是一个好主意。我们应该有一个明确的使用目的,然后只向数据供应链中导入相关的数据。当数据水库中的数据不再有用时,就直接丢弃它。没有必要把某个特别的应用程序生成的所有数据都存储下来。以物联网为例,传感器会产生奇大无比的数据量,但大多数时候其实我们只是在意一些极端值而已,比如温度超出了某个阈值范围。下图为某物联网公司的业务示意图。

首当其冲的挑战便是,数据存储、数据处理、AI组件众多。处理难度极大。

紧接着,数据孤岛问题接踵而至。

多种数据源,每种数据单独在一个库中,业务人员需要在应用层做数据集成/数据搬移,技能要求高,工程耗时长。

数据量日益增大,数据源日益增多,单个库扩容困难,性能下降,成本高,难以做跨市跨省等全量数据分析。

缺乏高级分析工具,前沿技术,如机器学习、图计算、深度学习等,未能充分利用多种数据深入挖掘价值。

用智能解决非智能

鉴于数据湖现状,我们如何利用它们为企业带来优势?这里是智能数据湖整体解决方案,包含四个关键的实践:融合,高效,易用,智能

融合——云化的hadoop

统一数据存储,再无数据孤岛;开放格式,丰富的数据类型:JSON, CSV, AVRO,图片,视频等;开放接口,兼容原生社区应用:100%兼容OBS和HDFS接口,总而言之,我们在数据湖中处理数据,试图找到新的洞察力。我们不会,任由数据处于最原始的格式,我们将优化数据。确保数据得到治理,确保数据在语义上一致,并满足业务的要求。

高效

一个字:快。实时数据实时分析, Apache CarbonData加速,万亿数据秒级响应

易用

做一个一站式、端到端开发工具,支持大数据+AI敏捷开发。可视化,代表丰富的可视化组件,图形化编辑界面,同时支持定制;而数据湖一站式开发工具,可管理多种大数据服务,实现跨服务作业编排调度;支持拖拉拽,预设10多种任务类型。

最后,对于数据标准,数据质量,数据安全的治理不可或缺。

数据湖治理:一站式治理平台(数据标准,数据质量,数据安全)

智能

重点绝不仅仅是数据,而是始终关于你要做什么工作。使用场合是什么,你可以运用什么应用程序来处理该数据以便从中受益——用智能实现高效。

智能元数据采集,统一数据视图

智能数据管理,无需人工拷贝

智能优化建议,免DBA

对数据进行“联系”,而不是“收集”。相比将数据转移到越来越大的集群或数据仓库,让数据待在数据湖进行智能化处理,来得更省钱、更容易也更高效。

如果想先试试效果,无论是企业用户,还是个人用户,华为云均提供了一组免费套餐,最高可免费试用60天,与此同时,华为云数据湖工厂(Data Lake Factory)2018年12月31日前提供免费试用,名额有限。

更多详细内容,欢迎访问:华为云官网 EI企业智能 EI大数据 数据湖工厂DLF

投稿:news@newhua.com

关键词: 华为云

责任编辑:新闻中心

我要评论

已有位网友参与评论

网站地图

牛华网

华军下载 | 牛华网 | 盒子 | pcsoft | 论坛

实用工具

关于我们 | 新闻投稿 | 软件发布 | 版权声明 | 意见建议 | 网站地图 | 友情连接 | RSS订阅 | 总编信箱 | 诚聘英才 | 联系我们

苏ICP备11016551号-2  苏公网安备 32132202000111号 本站特聘法律顾问:于国富律师

Copyright (C) 1997-2018 newhua.com 宿迁市牛华网络科技有限公司 版权所有