当前位置：首页 > 问答 > 正文

阿里巴巴关涛聊企业级大数据计算平台那些年一路走来的变化和挑战

水靖荷
问答
2026-01-01 10:48:49
1

开始）

关涛在聊起阿里巴巴企业级大数据计算平台的发展时，经常会用一个很形象的比喻，说这就像是一个家庭从解决温饱到追求生活品质的演变过程，他说，最早的时候，大概在十几年前，阿里巴巴的数据团队面临的最大问题是“有没有”，那时候，公司的业务数据量开始爆发式增长，传统的数据处理方式已经完全跟不上了，就像家里突然来了很多客人，原来的小锅小灶根本做不出够吃的饭，当时的第一要务是“造一口大锅”，能把数据“装下”做熟”。

关涛回忆，那个阶段（大约2009年到2013年），他们基于开源的Hadoop技术搭建了阿里第一代大数据平台——“云梯1”，这个阶段的核心挑战是“稳定”和“规模”。（来源：关涛内部技术分享）他笑着说，那时候团队就像平台的“救火队员”，每天都要处理各种稀奇古怪的问题，机器动不动就宕机，网络说断就断，作业跑着跑着就失败了，为了保证第二天业务方能看到前一天的数据报表，数据工程师们经常需要半夜爬起来手动重跑任务，非常辛苦，这个时期，技术上的挑战主要是如何在上千台甚至更多服务器组成的集群上，让计算任务能够稳定地跑下去，别动不动就“趴窝”。

阿里巴巴关涛聊企业级大数据计算平台那些年一路走来的变化和挑战

度过了“温饱”阶段，接下来就是“小康”时期（大约2014年到2017年），关涛说，这时候数据量已经不再是唯一的难题了，大家开始追求“吃得更好”，业务方不再满足于T+1（今天看昨天的数据）的离线报表，他们想要更快的反馈，比如小时级、分钟级，甚至秒级的数据分析能力，这就是实时计算的需求变得迫切起来。（来源：关涛在Apache Flink Meetup上的演讲）数据的种类也越来越多，除了传统的日志和交易数据，还有用户行为、机器学习模型等各种各样类型的数据。

关涛提到，为了应对这个挑战，阿里巴巴开始大力投入自研实时计算引擎，并最终选择了Apache Flink，成为了Flink社区最核心的贡献者之一，他们把离线计算和实时计算两套独立的“厨房系统”开始尝试打通，提出了“流批一体”的理念，这就好比，以前做一顿饭，炖菜和炒菜要用不同的锅和灶，现在希望用一口“万能锅”就能搞定，既能慢炖也能爆炒，大大提高了效率和便利性，这个阶段的挑战，从“保证不饿肚子”变成了“如何让饭菜更美味、上菜速度更快”，技术上的核心是低延迟、高吞吐和架构的统一。

阿里巴巴关涛聊企业级大数据计算平台那些年一路走来的变化和挑战

再往后，就进入了所谓的“富足”阶段（大约2018年至今），关涛形容，这时数据平台要解决的问题变成了“如何让家里每个人，甚至来的客人，都能轻松地做出自己想吃的菜”，也就是说，大数据平台的目标不再是仅仅服务少数专业的数据开发工程师，而是要赋能给全公司成千上万的运营、产品经理、分析师甚至业务同学，让他们能够自助式地使用数据。（来源：关涛关于数据中台建设的思考）

这个阶段的挑战发生了根本性的转变，从技术驱动变成了业务价值驱动，关涛说，他们面临的最大挑战不再是单纯的技术难题，而是“易用性”和“成本”，如何把背后极其复杂的大数据技术包装成简单易懂的可视化界面？如何让不懂技术的人也能轻松地进行复杂的数据分析和挖掘？另一个巨大的挑战是“成本控制”，随着数据量爆炸式增长，计算和存储的成本成了公司一笔巨大的开支，关涛和他的团队开始像“大数据平台的物业公司”，不仅要保证平台好用，还要精打细算，通过技术优化（比如计算和存储分离、弹性调度、自动优化等）帮公司节省每一分钱，他们开发了智能的成本优化系统，能够自动发现计算资源的浪费,并给出优化建议。

关涛总结道，这一路走来，大数据计算平台的演进脉络非常清晰：从解决“规模”问题，到追求“速度”和“统一”，再到关注“普惠”和“成本”。（来源：关涛对大数据平台发展阶段的概括）每一个阶段的挑战都不同，驱动平台发展的核心力量也从最初的技术突破，逐渐转变为如何更好地支撑业务创新和实现降本增效，他预测，未来的挑战可能会集中在数据的“智能化”和“隐私安全”上，如何让数据在安全合规的前提下，更智能地产生价值，将是下一个需要攻克的堡垒。结束）