YY直播-HADOOP平台架构介绍
本平台是基于 Ambari 自定义插件实现双实例管理架构, 打造的超大规模(1200+节点)企业级大数据物理算力底座,通过全栈可观测性与内核级虚拟化技术,实现高可靠、高弹性的海量数据算力协同。
YY直播-HADOOP平台架构图
平台四大核心价值(数据指标)
双实例联邦管控:打破单一集群规模上限,双实例联动管理 6 大子集群联邦。
降本增效 25%:采用 HDFS 纠删码(EC)冷热分离存储,空间利用率翻倍。
算力超卖 15%:基于 Linux 内核级 Cgroups 深度隔离,内存弹性超卖 15%。
全息智能诊断:AI 赋能,自动诊断和分析作业全生命周期问题所在和异常建议。
平台技术拓扑架构拆解
计算与资源调度层
平台提供多场景算力支撑,由 YARN 实施统一资源调度与 Capacity Scheduler 策略:
Flink 实时计算集群:面向 Stream 流作业,提供毫秒级低延迟数据处理。
Spark 离线计算集群:面向 Batch 批处理,支撑大规模、复杂的数仓数据分析。
控制、安全与立体可观测性
双实例联邦(Ambari A/B):实例 A 核心纳管业务集群(Cluster01-02);实例 B 纳管中台及日志集群(Cluster03-06),保障大集群运维不卡顿。
交叉公用基础设施:由 FreeIPA + Kerberos 提供全域统一认证,Ranger 落地精细化权限管控,ZooKeeper 与 JN 实现元数据高可用协同。
智能化支撑(作业诊断平台):全息分析 Spark/Flink 倾斜与反压,输出 AI 内存优化建议。
全栈可观测(监控告警平台):Prometheus + CortexMetrics 双轨采集,Grafana 统一看板,实现智能告警闭环。
内核进程虚拟化与算力超卖层
基于 Linux Kernel Cgroups 进行进程级硬隔离,锁定主机物理内存边界,严防 Flink/Spark 内存突发击穿。
在确保 HDFS DataNode 稳定性前提下,通过动态虚拟内存池超卖 15%,大幅提升闲置算力吞吐。
分支联邦存储底座(HDFS Federation)
由 1200+台高配数据服务器 组成共享硬件算力池,划分 6 大独立命名空间(NS1~NS6):
Cluster 01 & 02:核心业务数据区,采用 3 副本高可靠策略。
Cluster 03 & 04 & 05:中台日志、临时缓冲与实时数仓数据湖。
Cluster 06 (EC):专属冷存储集群,采用纠删码(EC)策略,在保证容错的前提下节省 50% 物理存储空间。