YY直播-HADOOP平台架构介绍

本平台是基于 Ambari 自定义插件实现双实例管理架构，打造的超大规模（1200+节点）企业级大数据物理算力底座，通过全栈可观测性与内核级虚拟化技术，实现高可靠、高弹性的海量数据算力协同。

YY直播-HADOOP平台架构图

平台四大核心价值（数据指标）

双实例联邦管控：打破单一集群规模上限，双实例联动管理 6 大子集群联邦。
降本增效 25%：采用 HDFS 纠删码（EC）冷热分离存储，空间利用率翻倍。
算力超卖 15%：基于 Linux 内核级 Cgroups 深度隔离，内存弹性超卖 15%。
全息智能诊断：AI 赋能，自动诊断和分析作业全生命周期问题所在和异常建议。

平台技术拓扑架构拆解

计算与资源调度层

平台提供多场景算力支撑，由 YARN 实施统一资源调度与 Capacity Scheduler 策略：
Flink 实时计算集群：面向 Stream 流作业，提供毫秒级低延迟数据处理。
Spark 离线计算集群：面向 Batch 批处理，支撑大规模、复杂的数仓数据分析。

控制、安全与立体可观测性

双实例联邦（Ambari A/B）：实例 A 核心纳管业务集群（Cluster01-02）；实例 B 纳管中台及日志集群（Cluster03-06），保障大集群运维不卡顿。
交叉公用基础设施：由 FreeIPA + Kerberos 提供全域统一认证，Ranger 落地精细化权限管控，ZooKeeper 与 JN 实现元数据高可用协同。
智能化支撑（作业诊断平台）：全息分析 Spark/Flink 倾斜与反压，输出 AI 内存优化建议。
全栈可观测（监控告警平台）：Prometheus + CortexMetrics 双轨采集，Grafana 统一看板，实现智能告警闭环。

内核进程虚拟化与算力超卖层

基于 Linux Kernel Cgroups 进行进程级硬隔离，锁定主机物理内存边界，严防 Flink/Spark 内存突发击穿。
在确保 HDFS DataNode 稳定性前提下，通过动态虚拟内存池超卖 15%，大幅提升闲置算力吞吐。

分支联邦存储底座（HDFS Federation）

由 1200+台高配数据服务器组成共享硬件算力池，划分 6 大独立命名空间（NS1~NS6）：
Cluster 01 & 02：核心业务数据区，采用 3 副本高可靠策略。
Cluster 03 & 04 & 05：中台日志、临时缓冲与实时数仓数据湖。
Cluster 06 (EC)：专属冷存储集群，采用纠删码（EC）策略，在保证容错的前提下节省 50% 物理存储空间。