产品 从火星的古海洋,读懂蓝星的数据湖之变

大家想必都听说了天问一号探测器“祝融号”成功在火星着陆的消息。在它传回的家书中,提到科学家们为自己选择的着陆地,火星的乌托邦平原,可能是一个古海洋所在地,地形平缓,确保了安全性。
当我们将目光投回到身处的这颗“蓝星”,也时时面临着需要为产业要素选择着陆地——比如说大数据。
相比传统的数据仓库架构,数据湖(Data Lake)已经成为数字化进程中,对现代企业和组织极具吸引力的大数据“着陆地”。
简单来说,数据湖指的是如同湖泊一样,将各种业务及软硬件中源源不断产生的各类数据,全部容纳其中。
在AI+云的大趋势下,数据湖还可以与机器学习等相结合,指导企业进行效率优化及智能决策;与云计算结合,利用云服务弹性扩展、灵活部署、高可用高可靠、按使用量付费等特点,打造出投资回报更高的大数据解决方案。
产品 从火星的古海洋,读懂蓝星的数据湖之变
文章插图
如果说乌托邦平原是探测火星的绝佳地点,那么数据湖就是承载企业数据资产的最佳场所。
目前来看,数据湖有巨大的想象空间,也吸引着各大云厂商下足功夫,AWS、微软、谷歌等都推出了各自的数据湖产品。
5月13日,腾讯云也首次对外展示完整云端数据湖产品图谱,并推出两款“开箱即用”数据湖产品,数据湖计算服务DLC和数据湖构建DLF。
相比单一产品或服务,在腾讯云的数据湖版图中,可以看到概念的“拓维”:云原生智能数据湖,对产业来说意味着什么?图谱式的产品矩阵,能给企业带来哪些价值?“开箱即用”会给数据湖及数字化进程带来什么影响?
我们以数据湖的需求与挑战为开端,来探秘腾讯云带来的“致用纪元”。
数字山河,需要怎样的大数据之湖?
先回答一个疑问,什么样的企业需要数据湖。答案是,所有。
IDC报告显示,到2025年全球数据总量将超过160ZB。数字化进程中,对大数据的管理与应用已经成为企业的竞争要素之一。飞速增长的数据规模自然也需要新的数据存储策略,数据湖的特殊之处在于:
所有数据可以一直保存,不管是实时使用的,还是可能永远不会被使用的,不仅让单位存储成本更低,也让任意时间点的数据回溯与分析成为可能;
所有类型可以全部容纳。无论是定量指标的结构化数据,还是传感器、社交网络、图像视频等等多样化数据源的非结构化数据;
所有用户可以得到支持。在数据湖中,所有数据都以原始形式存储,需要使用数据的人可以快速找到数据源的单一位置,避免了数据孤岛、数据重复、协作困难等问题。
此外,数据湖也易于适应变化。数据仓库的开发和更改都需要花费大量的时间,消耗开发人员资源。而在云端部署的数据湖,可以根据企业业务需求灵活扩展,比传统方案具有更大的灵活性,最大限度地减少雇佣专业数据运维团队的支出。
产品 从火星的古海洋,读懂蓝星的数据湖之变
文章插图
Aberdeen 的一项调查表明,实施数据湖的组织比同类公司在收入增长方面高出 9%。
看到这里,是不是已经心动想要拿起电话订购了?别急!并不是将所有数据一股脑丢进湖中就大功告成了。
正如Gartner分析师尼克·休德克所说,将数据湖看做是大数据项目的灵丹妙药,是一个谬论,数据湖是一个概念,而不是一种技术。
也就是说,企业在引入数据湖时,要注重从搭建、效益到应用的整体平衡。
比如,如果没有适当的工具,数据湖可能会遭遇数据可靠性的问题,出现数据损坏、脏数据等等,让数据科学家、AI工程师难以利用数据进行推理,或是训练出不准确的业务模型;
再比如,一直往数据湖里面存储数据,而缺乏数据治理及应用输出,就会形成“数据沼泽”,随着时间的推移变得混乱、低质量;
最关键的是,目前市场上大多数数据湖产品都在强调对数据的存储及计算,在具体业务场景之中究竟该怎样去应用数据湖,并没有清晰一致的答案。不解决技术的致用问题,就会让很多企业望而却步。
这种局面该怎么办?中国人的智慧早有提示,流水不腐户枢不蠹,比起挖坑引水的“单向湖”,从山川河流的源头、湖泊的常规治理,再到流向产业田野的应用,这样的一整套数据湖解决方案,显然更符合产业用户的期待。
开启纪元,腾讯云的多米诺骨牌
技术产业周期的开启,从来不是一蹴而就的。云原生的数据湖,需要在存储、计算、应用等层面解决诸多挑战才能完成。

推荐阅读