V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shuimugan  ›  全部回复第 1 页 / 共 21 页
回复总数  413
1  2  3  4  5  6  7  8  9  10 ... 21  
Deno:?
12 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
https://item.jd.com/100007630859.html 联想自家笔记本 ddr4 内存,我的 r7000p 5800h 就是塞了 2 条这个凑的 64g
13 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
@yumozero 客服懂个锤子,有时候厂商也是瞎写的,在 xps 自家页面写主持 32g 的时候我就上到了 64g 。你这款可以直接上 64g 。我就是这款,5800h+6600m 是吧,或者 5800h+3060
13 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
把你游戏本的具体型号发出来,有 2 个插槽不一定只支持到 32g 。
拿 2080ti 22g 跑 13B 8bit 量化,都能跑 30token/s 甚至更快。
准备好钱买第二块显卡或者换 2 张 7900XTX 跑 34B 的吧。
很明确告诉你 13B 级别,如果不是特别训练单一领域的,那么就是一个弱智。
比如最近最近新出的 StarCoder2 ,号称涵盖 619 种编程语言,我下载下来问几个语言、常用编程库、数据库之类的版本信息,15B 的训练数据落后 6 年,7B 的落后 9 年。

显卡显存不够内存来凑的内存回退机制不用看了,屎中屎,无论是玩画图还是玩 LLM 推理都是教你关掉的。

引用别人的回复
“生成式大语言模型的推理过程就是先把模型本身加载到运存,然后每生成一个字都需要把整个模型遍历访问一遍,所以决定速度的就是运存带宽(预训练或者微调时需要计算能力,但推理时几乎不需要,就是沿着预训练好的权重选择下一步路径,所以哪怕 1060 配上 48G 显存也是推理神器)。比如 7B 模型的 8 位量化版本,每个权重占一个字节所以就是 7G 大小( 7B 参数是指有 70 亿个权重,8 位量化是指每个权重用 2 的 8 次方表示就是有 256 种下一步的可能,也就是占用 1 比特的空间,同理目前性价比最高的 Q4 量化就是 3.5G ),如果是加载到 4090 的显存,因为它的 GDDR 显存带宽是 1000GB/s ,那么生成速度就是 1000 除以 7 大概每秒 140 个字(词元);如果是纯 CPU 推理,加载到 DDR4 的内存,带宽大概 30GB/s ,那么推理速度就是 30/7 大概 4 个字每秒”

内存堆高优势不大,ddr5 双通道带宽也就 70 ~ 100GB/s ,是 4090 的 1/10 。所以在 reddit 上可以看到 96 核跑 13B 的推理速度几 token/s 的景象。
现在优化手段就是把模型合理拆分,不活跃的丢 CPU ,活跃的丢 GPU ,既要避免 cpu 在围观 gpu 干活,又要避免 cpu 因为内存瓶颈干活慢,比如 https://github.com/SJTU-IPADS/PowerInfer

我每个月下载几百 G 的模型来测,用 M2 Ultra 192GB 玩了 3 个月了,最近就是因为它跑大模型的时候 cpu 不干活,我看不下去它在摸鱼,本来丢货架上不接显示器的,现在都接上显示器拿来写代码了。


附:本地模型写代码能力排名 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
和 Rocket.Chat 很像,本地跑起来看看就懂了 https://github.com/RocketChat/Rocket.Chat/blob/develop/docker-compose-local.yml
本地跑不起来的项目,搞不好触发一个逻辑要找好几个人。
本地能跑起来的项目,想加断点就加断点,想加 hook 就加 hook ,想复制流量就能复制,数据库甚至是虚拟机随时可以备份和还原环境,效率贼高,谁还想碰那些效率巨低的东西。
20 天前
回复了 Davic1 创建的主题 程序员 腾讯的蓝鲸运维平台,真的好用吗?
蓝鲸的代码就是一坨屎山,我第一次见一个系统同时用了 3 个消息队列和 2 个数据库,就是不同部门的产品强行缝合出来的怪物。
还有那个 cmdb ,我上一次看它有六千多个提交,跑起来还强耦合它其他系统,功能也没见有多丰富,很多提交都是"添加 xx 查询条件"和"xx 接口支持了 xx 字段",拿个 directus 建模拉个字段 2 天就能完成 cmdb 里 90%的功能。
20 天前
回复了 KisPower 创建的主题 生活 和父亲彻底闹僵了!
https://www.bilibili.com/video/BV18S421P7uM 看看这个。
觉得不爽就拉黑,不见,不要被道德绑架,每个人都应该为自己而活。
@xiaoshu 1c2g 能到这个 QPS ,挺接近 http 库裸跑 hello world 性能了,达到这个性能应该是 https 流量在上层卸载了(印象中腾讯云分享过服务器装 ssl 加速卡来优化),加上服务器的 cpu 指令集优化,网关层自身业务应该不重。
腾讯云那个 api 网关有用过,印象中扩展都是通过 serverless 的,这样看应该是把 cpu 计算都尽可能抛出去了,响应结果压缩这块应该也不是这一层做的吧?
这个网关现在部署在什么规模的集群上?最小的那个节点能抗多大的并发,占用多少资源?
休眠还能不断网,假寐是吧,下一步是不是可以研发休眠时候跑下载?
多人一机一般是 Aster + Sandboxie 绕开不能多开的软件检测,Aster 价格大概 200 多人民币
直接暴露在公网最容易挨打了,要暴露的话最起码加个 HTTP 基本认证 (Basic access authentication),可以大幅度减少产品自身爆 0day 后被日穿的风险。

如果是小团队内部使用的话又没什么运维能力的话,可以上 cloudflare 的 Zero Trust (本质上就是一个带鉴权的内网穿透),添加一个 tunnel ,再配个认证,比如先跳转 github 的授权页面拿到邮箱,判断邮箱在 cloudflare 配置的列表里了才能访问,这样就兼顾了安全和便捷,除非浏览器插件在偷 cookie 和自己人有内鬼,不然很难被日穿。
vmware 跑 gnome 一直是卡出屎的,你换 hyper-v + drm 倒是会流畅不少,我以前参考这个帖子 https://www.v2ex.com/t/838071 玩过一把。
另一个思路是 hyper-v + GPU-PV 的方式来把显卡也分给虚拟机,之前很多人用这个玩法结合 Easy-GPU-PV 项目做多人一机来整活,不过这个方案我只在虚拟机里也是 windows 的时候试过,虚拟机里也是 linux 的情况就没试过了。
31 天前
回复了 wqferan 创建的主题 Android 安卓 wifi 延迟不稳定
很古早的特性,我大概在安卓 8 的时候想把手机当服务器时就发现了
31 天前
回复了 juzisang 创建的主题 问与答 高性能 all in one 配置求推荐
5900x 去 bios 开 pbo eco 95w 模式,性能又好温度又低,我平时写代码+一堆浏览器窗口+几个虚拟机也就 45w 左右。加几百上 5950x 更爽,你搜 5950x+pbo eco 看评测就知道了
34 天前
回复了 Jinnrry 创建的主题 程序员 Google Gemma 开源没人讨论下吗?
规模太小了上限注定就那样,等 70B 以上规模的发布再看。我在等 https://www.phind.com/blog/introducing-phind-70b 这个开源
35 天前
回复了 szyp 创建的主题 分享发现 感觉苹果真的很严谨
这不是 seo 基本功吗?第一天学前端就会了啊
1  2  3  4  5  6  7  8  9  10 ... 21  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1531 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 17:07 · PVG 01:07 · LAX 10:07 · JFK 13:07
Developed with CodeLauncher
♥ Do have faith in what you're doing.