万兆家庭网络改造:由 TP 全家桶 至 mikrotik CCR2004 方案分享

119 天前
 piero66

去年 3 月决定新家的网络环境做规划选择了 tplink ER2260T 作为主路由。参照( https://www.chiphell.com/thread-2532730-1-1.html

原计划组网篇去年就发,但因为 2260T 自身问题无奈雪藏至今。

tplink ER2260T 为 tplink 商用产品线。刚到手的测试还行,随着时间推移,去年年底到今年年后这大半年间问题不断。如果经常看帖子也能看到有部分贴或者楼中楼也有反映到。接下来部分内容会引起某些人不适 [叠甲] 反映的问题只代表个例,只代表我手中 tplink er2260t 这一款产品的使用体验,我从未联系 tplink 支持获得所谓“内部固件”来解决问题,从上线到下线整个大半年期间 er2260t 只接收官方 ota 更新。

以我大半年的使用体验来说,tplink er2260t 作为「企业级」路由器是不合格的,以「消费级」产品来评价 2260t 也同样不合格。罗列几条问题:

1 、网络进行重拨号之后 LAN 掉线,解决只能用手机上的 tplink 商云 app 强制重启 er2260t 。这个问题是去年底的最新版本才开始明显被观察到,到我的 2260t 下线也没有推送新固件。

2 、网络的间歇性断开一直存在,每个固件版本都有观察到,去年秋天的版本稍微稳定了一点,这符合大多数网工对 tplink 的刻板印象()

3 、单一设备跑大连接请求场景下(比方 PT 刷流)其他设备网络几乎瘫痪,反映到实际就是打开个网页都要等大几秒或者是直接没网,手机直接回退数据网络。对于我本人来说是难以接受的。

4 、自带的多宽带流量均衡很简陋,1.0 固件就给一个开关,1.1 固件多给一个很简陋的优先级选项;单用户多线程没法利用双宽,而且流量均衡疑似会影响网络稳定性。

5 、nat 端口映射随时爆炸。该问题只有 1.1+固件存在。1.0 固件升级 1.1 固件后所有端口映射都失效。且一段时间后端口映射就会爆炸,重新配置后只能不断重启来让几十条规则能生效,或者一条条删掉重新手动创建端口映射,现在机器里还有启用的但莫名不生效的十几条端口映射规则;

6 、自带的 ddns 解析不是很稳定,并发测试全国只有约 2/3 的省份可以 ping 通

我真正意识到问题是今年 3 月帕鲁火的时候在 lab 上开了个 vm 给客户进行测试,客户跑了一周探针测出来 er2260t 这套网络的 sla 在线率只有 90%,因为这件事情当时也闹的很不愉快,该事件加速推动了替换掉 tplink 全家桶。

在深受 tplink 设备困扰期间本人也在不断寻找替代品,最终看上了 mikrotik 的 ccr2004 ;同时在看 ubnt 的 UDM SE 设备在硬件层面接近,但 udm se 的 2.5g 网口有稳定性问题,能搜到负面反馈。

MikroTik CCR2004 有至少三个版本:标准版 25G 速率 MikroTik CCR2004-1G-12S+2XS 、10g 速率 CCR2004-16G-2S+(分主动被动散热两款)和一个使用 PCIe 插槽取电且 25g 速率的 CCR2004-1G-2XS-PCIe ,该款类似于 Nvidia bluefield DPU 的设计思路。在产品形态也很接近 DPU ;

并且 CCR2004-1G-2XS-PCIe 具有双口 25gbps 的 spf28 端口以及一个 1gbps 的 rj45 端口,如果只有两条宽带的话刚好够用,

回收本帖标题:万兆指主路由的硬件端口最大速率,所以本次升级实际上是 10G → 25G

拆机可以看到 ccr2004-pcie 采用了板载 ecc 内存,容量 4GB ,核心是亚马逊 aws 同款的 alc52400 ,四核 a57 。虽然形态上类似 pcie 网卡,但其是一台完整的路由器,除了没有千兆交换芯片和其他 ccr2004 无异。到手即插即用路由界扛把子 routerOS 且正版 L6 授权。

需注意 CCR2004-1G-2XS-PCIe 对宿主有要求,仅支持 5.15 内核以上的 Linux ,也就是说,CCR2004-1G-2XS-PCIe 不支持 Windows 以及 esxi 系统。但严格意义来说,该卡仅需要 pcie 供电,宿主和其完全脱钩也是能正常运行的。也可以将其插到 pcie 底座上,只供电这玩意也可以跑。

关于 CCR2004-1G-2XS-PCIe 的合适宿主。在去年确组网方案时还考虑过一款体积小巧的 1L 小主机:戴尔 wyse 5070 。

购入时考虑是配置为软路由旁路模式配合 2260t 使用。ccr2004 以独立形式运行 ros 系统保证系统的稳健性,wyse5070 本体使用 pve 虚拟化平台切出不同的 kvm 虚拟机以及 docker 、lxc 等形式运行自定义化的服务。网络出口和服务层解耦,可以稳定和扩展——达到:既要、也要

关于 wyse5070 ,这货原本是长这样的,原本定位是一个云服务的瘦客户机。

换用由 @AlphaArea_开源的 diy 方案后体积可以压缩很多,且保留扩展性,开源项目地址:github.com/KCORES/KCORES-5070 ,包含亚克力外壳,和 riser 的 pcb 设计,铜柱尺寸 M3x14mm 四枚 M3x6mm 四枚,在这里感谢原作者的贡献。 原作者也设计了一个铝铣的被动散热,如果进弱电箱建议用原装主动散热。唯一缺点就是不能使用原装 19v 电源,只能使用 12vdc 电源,使用第三方供电会导致 wyse5070 的 cpu 被禁止睿频,降低性能。 wyse5070 很挑内存,我这里两条 8g 2r*8 内存能进 bios 但是开不了机,拔掉一条就可以正常使用

wyse5070 本身的扩展性在同级里也较好,标准的 pcie2.04 外加 pcie2.01 的 m2wifi ,存储上支持 emmc 芯片或 ngff ( m2sata )硬盘一块。

改造前后的网络拓扑图:

原方案是使用 2260t 主路由兼作 ac ,管理 xap3022 ,xap4500 ,xap6300 三个 2.5g 端口的 86 面板 ap 。2260t 先使用 sfp+光口连接到万兆 poe 交换机,再接入若干 ap 。

关于 ap 的选择。2.5g 上联端口 ap 现在可选项很少,除 tplink 外只有顶级旗舰产品才会配备。价差 2.5g 较 g 口可达 2-3 倍,所以暂且不替换掉 tplink 的 ap 。

可以看到拓扑图中,改造后是 MikroTik CCR2004 使用 sfp+光口连接到万兆 poe 交换机,再接入 tplink ac100 控制器和 tplink ap 。poe 交换机到 homelab 的交换机是 2.5g 电口的链路,后续视情况有留空间可以随时升级 10g 。

在三个月实际使用中,没有遇到任何 ap 掉线或者不稳定的问题。

一个隐藏优势,MikroTik CCR2004 PCIe 的涡轮扇可以给自带 sfp28 光口提供有效的风道,如果你使用猫棒来拨号,散热能力 ccr2004pcie 比被动散热的光口管理交换机好不少。我这里使用 g7615 v2 光猫,就不需要折腾猫棒了。

实测 web 浏览加载速度快且稳定,体感能察觉比 tplink 更快。推测和 ros 内置 dns 缓存有关。

实测双宽带。routeros 使用内置 pcc 负载均衡对比 tplink ”企业级“负载均衡很明显的优势就是测速软件可叠加,可以跑出很漂亮的 1+1=2 的测速成绩,不过 tplink 负载均衡可以把每条宽带 ipv4 和 ipv6 同时拉满,pt 可以 30 兆上行跑出 60 兆的效果。ros 就不行了,是负载均衡策略的取向不同。

速度 or 稳定,必选 → 稳定 再快意义不大,因为瓶颈在 wifi 数据链路上,wifi6 ( 160mhz 2*2mu-mimo )实用带宽是 1800mbps (有干扰会跌到不足 1600mbps ),现在的状态就是几乎跑满无线带宽。

所以家宽现在如果有「跑满强迫症」,只推荐 1500m 套餐或者开 1000 兆和 500 兆两条宽带。或者拿全尺寸 ccr2004 拨三条 500 兆宽带也挺好,只要有足够多的入户纤

之前的大连接场景问题也特意实测,pt 刷流 20 万包每秒拉满 1000mbps 下 100mbps 上的同时进行网页、app 浏览测试。没有任何问题,和空载加载速度完全一致。

1300 兆拉满 cpu 负载 45 ~ 50%,ccr2004 pppoe 拨号没有硬件加速全靠 cpu 硬刚,也不具备任何的 L3 卸载功能。极限就只适用 2000 兆宽带了。假设您是高贵的万兆宽带用户或者 ptn 专线,推荐你购买 mikrotik 的 ccr2216 系列旗舰路由,内置 16*a72 核心,可以暴力拉满万兆 pppoe ,且有 L3 硬件卸载。或使用「正品」 DPU 刷固件安装 ros 也不错。

关于温度。在密闭的弱电箱里:j5005 处理器温度 49.C ,ccr2004 路由器核心温度 58.C,风扇转速 3000 转左右,万兆光转电模块温度 51.C 。

声音关上盖板后近乎为零。

功耗。wyse5070 功耗极低,只有 5w 不到,具体移步视频 BV1JY4y117vH 查看。ccr2004 从上图能看出,功耗闲置是 3w 满载大概 4-5w 。

很节能环保,和本人的 epyc homelab 动辄上百瓦「五级能耗」强到不知道哪里去()

另附 alc52400 核心特写:

如果有补充和讨论请至评论区。
后续预告:

3487 次点击
所在节点    宽带症候群
41 条回复
sun82kg
118 天前
@aa51513 我的 2260t 用下来感觉没啥问题嘛
huangya
118 天前
@piero66 那绝对是固件问题,2000 个连接随便上的。er2260t 里面有两层卸载(offload),第一次是 PPE ( Packet Process Engine ),速度最快。支持 2000 个连接。第二层是用单独的 core 做加速,支持 4000 个连接。
smallboy19991231
118 天前
图都挂了
piero66
118 天前
@huangya tplink 固件的 nat 有问题
xxsjk
118 天前
@piero66 才 2000 连接,绝逼固件问题了,这点连接数,30 块钱的 7621 不开硬件 nat 都稳压。1000/100 的话把硬件 nat 打开也没啥问题。
sun82kg
118 天前
@piero66 升级到 1.2.2 Build 231120 ,感觉还算稳定,你上面提到的那些问题,基本都解决了
tcpdump
118 天前
除了折腾,想知道应用场景和平时的使用率有多少?
piero66
118 天前
@xxsjk 是连接 2000 个 pt 用户,连接数不止 2000 啊
piero66
118 天前
@sun82kg 1.你有没有开多宽带负载均衡 2.网络环境不同,有没有 iot 设备、虚拟机、nas 差别很大 3.看你有没有 pt 使用场景
piero66
118 天前
@xxsjk mt7621 我这也有,openwrt ,跑 pt500 连接就光速死机
sun82kg
118 天前
@piero66 没多宽带负载,没有 PT 。iot nas 虚拟机 都有。带三个 AP 。 感觉很丝滑呀,可能我的使用场景没你的重
rio
118 天前
@piero66 mt7621 死机的时候开了硬件转发吗?想了解下它的极限能力如何
Oscarice
117 天前
看了这个卡好久,正好又有个在吃灰的 wyse5070 厚板,方便问下整机的待机和下载功耗嘛
piero66
117 天前
@Oscarice 10 瓦不到
txydhr
116 天前
piero66
116 天前
@txydhr 这是 chh 官方,chh 也发了
piero66
116 天前
@Oscarice 满载空载都 10 瓦不到
luquan
116 天前
"mikrotik 的 ccr2216 系列旗舰路由,内置 16*a72 核心,可以暴力拉满万兆 pppoe ,且有 L3 硬件卸载。" <--勘误下这个不存在的,routeros arm 平台上单 pppoe 只能用一个核心,1 核有难 15 核心围观是常态,和 ccr2216 相同 cpu 的 ccr2116 不开 fasttrack 只能跑 1.5~1.7G 的 pppoe ,牺牲功能性开了 fasttrack 也只能勉强跑满 2.4G ,且只对 ipv4 生效 v6 根本没有 fasttrack ,rb5009 之类的设备频率更低性能应该会更差。

2000m 最好还是上 x86 平台刷 ros 。
Oscarice
115 天前
@piero66 功耗这么低的话有点心动了,正好 5070 可以再就业
hermanarturo
112 天前
@luquan 怪不得我 2116 起的 macvlan 多拨只能跑 1.7G pppoe ,但是走 fasttrack 的能跑 2G+

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1057860

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX