我是如何把网站图片 cdn 流量成本压到全网最低(之一)的

2022-09-05 09:32:44 +08:00
 star7th

缘起

我经营的一些网站和产品的访问量越来越高,付出的 cdn 流量成本(主要是图片资源)也越来越大。抱着节省成本的想法,我尝试在网络上找下有没有便宜的 cdn 商家。 像阿里云、腾讯云、七牛云,这些公有云 cdn 的价格都大同小异,我感觉即使从这一家换到另一家,也节省不了多少成本,同时还增加了迁移的麻烦。因此我把目光投向传统机房,预感可能越接近机器底层,能优化的空间越大。

经过几天的考察,发现很多非热门地区的机房都或多或少都有一些闲置的优惠产品,甚至其中也不乏优质带宽机器。特别是三四线机房,线路测试其实还不错。很明显这些闲置资源没有得到充分利用。一个点子在我脑海中酝酿了。

使用开源 or 自己原创?

假如我把各地的闲置机器组织起来,把它们当成一个个节点,组建起一个分布式网络,自动容灾切换,岂不就是一个廉价的自建 cdn 方案了? 顺着这个思路,我去找一下开源的 cdn 软件 ,看看有没有现成的解决方案。

然而事情没有我想的那么简单。开源 cdn 并没有很好的容灾切换机制,无法实时避障。 它核心原理里,用域名 cname 的方式指向某个节点 ip ,当节点挂了的时候,由于域名 cname 解析变更有 10 分钟以上的缓存,所以必定会导致用户有一段时间的访问故障。 我现在探索的是把各地机房集成到一起,其中机器节点的可靠性是参差不齐的。如果想做成一套 cdn ,那么就必须要假设节点是不可靠的,随时可能故障的,然后为此设计一套完善的容灾解决方案。

既然找不到现成的开源解决方案,那就自己动手写代码实现吧。

基本逻辑

我边啃着玉米,边用笔在纸上画着逻辑交互图。 经过一阵子的反复斟酌,基本逻辑已经成型。

1 ,这套程序主要有两个角色,调度服务器和节点服务器。调度服务器架设在阿里云 k8s 上,保障高可用。而节点服务器则是分布在各地机房,做好可能会故障、随时容灾切换的准备。

2 ,调度服务器的作用是导流和容灾,将用户流量以重定向的方式导向可用的节点,同时避开故障节点,做到实时无缝切换。

3 ,节点服务器的主要作用是拉取源文件到本地缓存,从而被用户访问。

4 ,节点服务器跟调度服务器之间要用某 tcp 协议实时连接监控,监控粒度细分到每个文件,方便调度服务器实时避开故障节点,这样才能保证故障时候,用户访问的每个链接都可以正常切换访问。这里实时性是非常重要的,也是容灾方案的核心。

小试牛刀

于是我花了一个多月的时间去写代码来实现这个逻辑。核心代码其实写得很快,但是为了保障稳定性,增加了非常多的异常容灾措施,要花时间不断测试不断重写。 初期只放三个异地机房节点,把流量切进来看看。 为了保险起见,先从小的做起。我一开始切日均 10G 流量过去,让它跑几天。 几天后,没问题。 试试日均 50G 流量? 50G 跑了几天,ok 。日均 300G ? 依然正常运行 。

开放商用

现在,已经完美运行了一个月,每天承受超过 1000G 流量,暂时没发现有故障现象。我以及一些朋友的很多产品都在用。我刻意关掉其中一个节点,调度服务器马上切流量到其他节点。我刻意关闭全部节点,流量也马上转到源站。整个过程中,只要调度服务器正常运作,那么,无论节点故障与否,用户都将继续无感知地正常访问图片。 而调度服务器直接运行在阿里云 k8s 上,可靠性是非常高的。因此整套架构的可靠性很高。

有了这个架构,如果需要承受更大流量,我只需要增加节点数即可。而全国范围内的机房机器多的是 ,我可以随时租机器来新增节点。当我意识到有规模化运作大流量的可能性后, 我决定把 cdn 能力包装出去 ,商业化运作。于是注册并备案了大风云网, 访问地址是 www.dfyun.com.cn

结语

大风云 www.dfyun.com.cn 严格来讲不是传统 cdn ,它是另一种内容分发机制,基于传统 cdn 以及传统机房机器, 用软件技术实现资源整合,是应用层面的一种微创新,在图片访问,文件下载等这些场景下可以成倍地降低流量成本 ,成本低于 0.05G/元 , 降低到公有云 cdn 价格的四分之一以下(只对比平时价格,不考虑搞活动的临时特价),几乎是全网 cdn 流量成本最低之一了。

26388 次点击
所在节点    分享创造
190 条回复
Lilalaaa
326 天前
更重要的是我多次对比过你们两家的节点质量,综合延迟/稳定性/丢包,他家明显好过你家(虽然总体来看半斤八两,跟大厂正价产品没得比),并且没有二次重定向流程,首包时间更短。

另外,你说你「调度服务器架设在阿里云 k8s 上,保障高可用」,那么你是否考虑过调度服务器 IP 遭遇 DDOS 攻击相关问题?在此方面是否有预案?据我了解,阿里云防御产品价格是相当高的。你的方案极度依赖于调度服务,只要调度服务出现异常,服务将完全不可用;而传统形态 CDN 产品由于节点数量多且分散,并不存在此问题。
star7th
325 天前
@Lilalaaa

去搜索了解了下 明赋云 ,原来是 p2p 的 cdn 。确实跟 p2p 是很难比便宜的,p2p 的成本太低了。
我只能说,敢直接把域名解析到 p2p 的 ip 去,可靠性很差的。某个地方节点挂了,那个地方的用户至少有 10 分钟不可用。

我的 dfyun ,节点是实时容灾的,根本不需要担心节点质量好不好的问题。

调度服务器 IP 遭遇 DDOS 的问题我自然想过。遇到的时候,我就再前置一层商业 cdn 来挡一下呗,只前置调度服务器,费用可控。
star7th
325 天前
@Lilalaaa

dfyun 采用 跳转机制 就是为了避开节点故障时候的那 10 分钟(因为 dns 更改节点 ip 后,至少十分钟才能生效)。任何不使用跳转机制的 cdn ,可靠性就等于节点的可靠性。大厂的节点自然可靠,但是,用 p2p ,或者乱七八糟服务器节点的 cdn ,节点 ip 真的容易挂。真的没法在可靠性上跟 dfyun 比。dfyun 的节点质量无论好坏,都能容灾,而它不能。
Lilalaaa
325 天前
@star7th 他家 CDN 节点 IP 段我查了一下,都是机房 IP 段,基于 p2p 的 pcdn/mcdn IP 不应该是家宽段吗?

我拿大文件测了一下,多线程峰值可以跑到 60MB/s ,应该没有哪个地区(联通)家宽上行口子给这么大吧

并且,他家和商业 CDN 一样是走标准端口 80/443 跑的,家宽不会给开这俩端口吧
tomato1111
324 天前
一年过去了,想知道大风云现在运营的怎么样了,一天承受多少流量? 有多少用户接入了? 可以透露下吗
csulyb
323 天前
503 了 不知道是业务的问题还是官网的问题
star7th
322 天前
@Lilalaaa

我去 ping 了一下,那大概懂了,他是包了辽宁的一个小机房的一条带宽来提供服务。也是 ok 吧,唯一的风险就是单点风险,因为他全国都走同一个机房节点。还有就是他的带宽,是多人共享的,如果多一点的 vip 的话,带宽也会受限制。单机房的总带宽上限是有限的。
star7th
322 天前
@csulyb

昨天早上短暂 503 了下,因为凌晨早上的备份服务出了点问题,加容灾节点就好了。
star7th
322 天前
@tomato1111

数据没达到我预期,就没必要说了。目前来看基本不挣钱。
所以我现在也转变期待了,主要是自给自足,然后,也利用 dfyun 收费来养着一个集群。养着一群 ip 机器,后面总有用。
star7th
322 天前
@tomato1111

另外就是,即使数据不理想,我也不会降低标准去迎合一些小客户,因为麻烦,得不偿失。
目前我还是坚持接入 dfyun 的标准是,域名已备案,产品月流量大于 200G 。
至于有多少接入,就随缘吧,反正收入不靠它吃饭。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/877718

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX