
Netflix 鲜为人知的架构:如何大幅削减云成本
每个人都知道 Netflix 在 AWS 上投入巨资。但他们不知道的是,一个巧妙的架构决策每月为他们节省了数百万美元的云成本。
当科技界痴迷于 Netflix 的微服务和著名的混沌工程时,他们却错过了真正的成本优化故事。这与自动扩缩、预留实例或任何你随处可见的典型云成本建议无关。
这与 Netflix 在 2012 年做出的一个战略决策有关,该决策从根本上改变了他们对内容交付的看法。这个决策如此有效,以至于现在它处理了他们 100% 的视频流量,并在此过程中为他们的 ISP 合作伙伴节省了超过 12.5 亿美元。
这就是那个无人谈论,但每个人都应该学习的架构诀窍。
一个被所有人忽视的问题
让我们从一个足以让任何流媒体公司感到恐惧的数字开始:Netflix 占据了全球下游互联网流量的 14.9%。这比 YouTube 多。比 Amazon Prime Video 多。比互联网上任何其他单一服务都多。
2019 年,Netflix 透露他们每月在 AWS 上花费 960 万美元。如今,随着其大规模增长,这个数字可能要高得多。但有趣的是:尽管提供了数十亿小时的内容,但他们每 GB 的成本却一直在稳步下降。
怎么做到的?
大多数面临这种规模的公司会向 CloudFront、Akamai 或 Fastly 等传统内容分发网络 (CDN) 投入大量资金。他们会优化缓存命中率,购买更多的边缘节点,然后寄希望于最好的结果。
Netflix 却反其道而行之。他们彻底消除了中间商。
改变一切的架构决策
2012 年,Netflix 做出了一个当时看起来很疯狂的决定:从零开始构建自己的全球 CDN。
不仅仅是任何 CDN。这是一个专门为实现一个目的而设计的 CDN:尽可能高效、廉价地交付 Netflix 视频内容。
他们称之为 Open Connect。
当其他所有公司都在优化现有架构时,Netflix 提出了一个不同的问题:“如果我们根本不需要向 CDN 提供商付费呢?”
Open Connect 的运作方式
Netflix 没有建造大型数据中心并希望内容能缓存到离用户近的地方,而是将服务器直接带到了用户身边。
他们向世界各地的互联网服务提供商 (ISP) 提出了一个难以拒绝的提议:
“让我们把服务器放在您的数据中心里。免费的。您提供电力和空间,我们提供硬件并为您客户填充最受欢迎的内容。”
这些服务器,被称为 Open Connect Appliances (OCAs),本质上是 Netflix 的个人内容仓库,放置在 ISP 网络内部。当孟买的用户想看一部剧时,这个请求不再需要绕半个地球到 AWS 数据中心,而是直接从位于他们 ISP 机房内的 OCA 提供服务。
结果是:全球 95% 的 Netflix 流量都是通过 Open Connect 和住宅 ISP 之间的直接连接交付的。 没有昂贵的 CDN 费用。没有第三方加价。无需与其他公司的流量共享带宽。
让你大吃一惊的数字
自 2012 年推出 Open Connect 以来,Netflix 已经:
- 投资 10 亿美元 用于构建和分发超过 8,000 台 Open Connect 设备
- 通过降低传输成本,帮助 ISP 节省了 12.5 亿美元
- 消除了 95% 流量的 CDN 成本
- 通过自己的基础设施服务 100% 的视频流量
但真正的魔力不仅仅在于成本节约。它在于战略意义。
为什么这个策略很棒?
1. 他们掌控自己的命运
传统的 CDN 是共享基础设施。当所有人在黑色星期五同时涌入流量时,你是在争夺资源。Netflix 没有这个问题,因为他们拥有自己的整个交付管道。
2.他们将成本转化为伙伴关系
Netflix 没有向 CDN 提供商付费,而是将内容交付变成了互惠互利的伙伴关系。ISP 为其客户提供了更快速的内容交付(这减少了支持电话并提高了客户满意度),而 Netflix 则获得了免费托管。
3. 他们针对特定用例进行优化
通用 CDN 是为各种内容类型而构建的——网页、图片、API、视频。Netflix 的 CDN 只为一件事而构建:流式传输高质量视频。这种专业化允许进行通用 CDN 无法比拟的优化。
4. 他们将延迟降至接近零
由于服务器位于 ISP 网络内部,内容与用户之间的物理距离被最小化。这意味着更快的启动时间、更少的缓冲和更高质量的流媒体——所有这些都同时节省了资金。
实现这一目标的技术架构
Open Connect 不仅仅是随机放置服务器。它是一个复杂的系统,包括:
智能缓存
OCA 不存储所有内容。它们使用机器学习来预测哪些内容将在其区域受欢迎,并在非高峰时段预缓存。
动态路由
系统根据以下因素自动将用户路由到最佳可用 OCA:
- 地理位置接近度
- 当前服务器负载
- 网络状况
- 可用内容
故障弹性
如果一个 OCA 发生故障,流量会无缝地故障转移到附近的其他设备,或根据需要返回到 AWS。
自适应流媒体
内容以多种质量级别存储,允许系统根据当前网络条件提供最佳质量。
为何其他公司难以复制
你可能会问:如果这个策略如此有效,为什么不是所有公司都在这样做?
答案揭示了 Netflix 方法的精妙之处:
- 需要大规模: 你需要足够大的规模,让 ISP 愿意与你合作。大多数公司不具备 Netflix 的这种影响力。
- 需要巨额投资: 10 亿美元的基础设施并非小数目。大多数公司无法证明这种前期成本的合理性。
- 需要长期思维: 这项投资的回报期以年为单位,而不是季度。大多数公司都追求即时投资回报率。
- 需要专业技术: 构建和维护全球 CDN 需要大多数公司不具备的内部专业知识。
对任何规模的架构的更广泛启示
虽然大多数公司无法完全复制 Open Connect,但其背后的原则适用于任何规模:
- 质疑基本假设: Netflix 质疑他们是否需要使用第三方 CDN。你对你的架构做出了哪些可能不必要的假设?
- 将成本转化为伙伴关系: 不要只向供应商付费,寻找创造互惠互利关系的方式,从而为每个人降低成本。
- 针对特定用例进行优化: 通用解决方案有效,但适合你确切需求的专业解决方案通常效果更好。
- 着眼长远: Netflix 的 10 亿美元投资在 2012 年看起来很昂贵。如今,它是他们最大的竞争优势之一。
隐藏的好处
成本节约仅仅是个开始。Open Connect 还实现了传统 CDN 无法实现的功能:
实时分析
由于 Netflix 拥有整个交付管道,他们可以获得每个流的详细分析,这些分析会反馈到他们的推荐算法中。
内容优化
他们可以尝试不同的编码设置,并实时衡量对用户参与度的影响。
全球扩张
当你可以与本地 ISP 合作而不是与国际 CDN 提供商谈判时,进入新市场会更容易。
质量控制
他们可以保证一致的流媒体质量,因为他们控制着内容交付的各个方面。
这对你的架构意味着什么
你不需要 Netflix 的规模来应用这些原则:
自建与购买决策
在默认选择第三方服务之前,计算为你的核心用例构建专业解决方案的长期成本。
合作机会
寻找可以建立双赢关系的供应商,而不是传统的客户-供应商动态。
专业化优于通用化
通用云服务很方便,但专业解决方案通常能提供更好的性能和成本效益。
基础设施作为竞争优势
考虑你的基础设施选择如何成为战略优势,而不仅仅是运营必需品。
成本优化的未来
Netflix 的 Open Connect 策略指明了一个未来,即最大的成本优化不再来自于调整现有服务,而是来自于从根本上重新思考这些服务如何运作。
Netflix 前云架构师 Adrian Cockcroft 揭示了另一个见解:“如果你遗漏了系统的大部分,那就不奇怪了。它不会为你工作……通常,人们使用云时,只是把他们的应用程序服务器放在云中,而把数据中心放在别处。这是你本应使用云的方式,因为我们不信任把数据放在云中。”
成本优化的最大杠杆是什么?利用率。正如 Cockcroft 所说:“如果你的利用率是 25%,那意味着你花的钱是应该花的四倍。忘记所有购买预留和节省计划之类的东西,只要把你的利用率提高一倍,你的云账单就会减半。”
Netflix 通过以下方式实现这一目标:
- 极致的自动扩缩,在不需要时完全关闭服务。
- 无服务器功能,提供 100% 的利用率。
- 定制基础设施,针对其特定工作负载进行优化。
总结
每个人都在谈论 Netflix 的微服务架构和混沌工程。但他们最具影响力的架构决策可能正是那个最少受到关注的:构建 Open Connect。
通过消除内容交付中的中间商,Netflix 不仅仅节省了资金。他们创造了一个可持续的竞争优势,并且随着他们的成长而变得更强。
这个教训不是每个公司都应该构建自己的 CDN。这个教训是,最大的优化机会往往来自于质疑那些“应该”如何运作的最基本假设。
Netflix 每月 960 万美元的 AWS 账单听起来很昂贵,直到你意识到他们每月提供 60 亿小时的视频。他们每小时流媒体的成本低得令人难以置信,因为他们在花钱的地方做出了明智的架构决策。
他们大力投资于消除持续成本的基础设施,而不是将这些成本视为不可避免。
轮到你了
Netflix 的旅程为任何希望大规模优化成本的公司提供了一个蓝图:
- 确定你最大的持续开支。
- 质疑这些开支是否真的必要。
- 寻找将成本转化为战略伙伴关系的方法。
- 为你的核心用例投资于专业解决方案。
- 以年为单位思考,而不是季度。
下次你优化云成本时,问问自己:“Netflix 会怎么做?”
他们可能不会仅仅购买更小的实例或调整自动扩缩策略。他们会质疑他们是否需要使用这项服务。
有时,最好的优化就是消除。
你公司最大的基础设施成本是什么,而每个人都只是接受它为“理所当然”?你是否找到了将成本转化为竞争优势的方法?
联系我们
有任何云成本管理的需求或问题?欢迎通过以下方式联系我们!
公众号
企业微信客服
业务咨询
技术社区
地址
北京市海淀区自主创新大厦 5层