现在的位置:主页 > 综合新闻 >

后 Hadoop 时代,大数据分析路在何方?(2)

来源:大数据 【在线投稿】 栏目:综合新闻 时间:2021-06-10

【作者】:网站采编
【关键词】:
【摘要】:除了新兴技术和云厂商的持续发力,Hadoop 本身的发展也逐渐显露「疲态」,堆积木的方式固然不错,但无形中也加大了用户的使用难度。从下图可以看到

除了新兴技术和云厂商的持续发力,Hadoop 本身的发展也逐渐显露「疲态」,堆积木的方式固然不错,但无形中也加大了用户的使用难度。从下图可以看到在 2016 年,Hadoop 上已经有超过 20 个常用组件,对于 Hadoop 用户来说,学习和运维都是一个巨大的挑战。

综合以上因素来看,Hadoop 逐渐失去光环是必然的事情,并不是很意外。话说回来,任何一个技术都有其发展、成熟到衰落的一个过程,这是客观规律,没有任何技术可以逃脱。那么 Hadoop 会退出历史舞台吗?我们相信这个事情不会很快发生,毕竟 Hadoop 的用户体量非常大,平台和应用的迁移成本非常高昂,所以今天的用户还会继续使用它,只是新的用户会逐渐减少。这个过程我们称它为「后 Hadoop 时代」。

既然进入了后 Hadoop 时代,作为 Hadoop 用户,如何面对这个转变过程呢,有哪些选项可以选择呢?选择是有的,就看你的荷包和技术能力了。

首先,指望像 Cloudera/Hortonworks 这样的技术厂商,再发布一个面向大众的高质量免费产品,基本上不可能了。事实证明他们早前的免费版 + 收费版双线走的路是不通的,所以日后 Cloudera 只会提供收费版本 CDP,免费午餐结束。至于是否有其它厂商愿意挺身而出再扛起免费大旗,这个就不得而知了;而且就算有这样的厂商,它的产品稳定性和先进性还不得而知,毕竟 Hadoop 的核心开发者可大都是在 Cloudera 和 Hortonworks 的。

但是这里大家别忘了,Hadoop 是托管在 Apache 基金会的开源项目,Apache 的目的是为 public good,大众可以免费获取、使用和分发的。所以如果不想付费购买的话,那还有 Apache Hadoop 这个选项可以免费使用,毕竟一众互联网公司,都还用的是 Apache Hadoop(以它们的规模,只能用开源版),它们可以,为什么我不可以呢?话虽这么说,但是开源软件质量一般,没有服务,也没有 SLA 保证,出了问题只能自己去研究和解决,有问题发到社区,然后慢慢等结果吧,这个如果你能接受,那么可以雇几个工程师尝试一下。同时提醒你,市场上的 Hadoop 开发或运维工程师价格也是不菲的。如果你还在意 Apache Hadoop 未来的技术方向和潜力,不妨研究一下它的 roadmap;下面是摘自某次 Hadoop 社区的 meetup,上面可以看到 3.0 之后,Hadoop 的新功能就乏善可陈了,主要是一些跟 K8s、Docker 的整合了,这些对于大数据来说吸引力不足。

如果上面两个选择都不合你的胃口,那可能就剩最后一条路了:去 Hadoop,迁移到其它技术平台。

3

后 Hadoop 时代的大数据分析

前面分析了用户该如何面对后 Hadoop 时代,那么 Hadoop 生态的厂商,该如何应对呢?这里我以 Kylin 和 Kyligence 为例做一些经验分享。

Apache Kylin 项目和 Kyligence 公司都诞生于 Hadoop 时代,在最初的时候,我们的产品都是构建在 Hadoop 之上的。

在大概三年前,我们就已经敏锐地预判到,客户的需求逐渐在往云原生的、存储计算分离的方向上发展。在这样的行业趋势下,我们也对原有平台体系做了一些新的设计。

2019 年,Kyligence Cloud 宣布完全脱离 Hadoop 平台,底层使用云原生架构,存储使用云厂商的对象存储,例如 AWS S3、Azure blob storage、ADLS 等,计算使用 Spark+ 容器化,资源可以直接对接云平台的 IaaS 服务和 ECS。未来我们也希望能更进一步基于 Kubernetes 打造资源调度,可以让资源请求延迟更低、利用率更高。

如今我们已经真切感受到这套体系架构带来的灵活性、可运维性以及低 TCO,在多个(特别是中小规模)客户得到非常积极的反馈;目前正在细致优化和打磨,同时向多个云做拓展。

4

未来,大数据热点在哪里

展望一下未来大数据分析的热点在哪里;这里我们不妨拿最近市场上炙手可热的 Snowflake 和 Databricks 来聊一聊。

Snowflake 上市的时候股价曾一度飙涨到每股 400 多美金,易用性是让 Snowflake 身价暴涨的一个重要原因。Snowflake 是一个把数据仓库做成 SaaS 服务的软件供应商,这种完全托管的服务对于用户使用变得非常简单,不再需要学习很多的数仓知识,也不需要学习如何优化模型、如何性能调优等,所有的资源申请、查询优化、出错重试等等都通过自动化解决了。目前 Snowflake 有超过 2000 家企业客户,市值达到千亿美金,已经超越了百年老店 IBM。

文章来源:《大数据》 网址: http://www.dsjzz.cn/zonghexinwen/2021/0610/2434.html

上一篇:动漫行业如何利用大数据软件进行用户画像分析
下一篇:交通大数据②丨交通向西 每天59.1万辆车穿中梁山

大数据投稿 | 大数据编辑部| 大数据版面费 | 大数据论文发表 | 大数据最新目录
Copyright © 2018 《大数据》杂志社 版权所有
投稿电话: 投稿邮箱: