V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  slowgen  ›  全部回复第 4 页 / 共 28 页
回复总数  553
1  2  3  4  5  6  7  8  9  10 ... 28  
2025 年 6 月 25 日
回复了 awsl2333 创建的主题 程序员 cloudflare containers 来了, 真不错
从定价上来说其实很贵,如果长时间运行的话比同配置包月的 vps 和云服务器贵上非常多(当然流量还是比各种云服务便宜很多,云厂商普遍 0.8 元/GB 的国际流量,它在付费计划里有 1TB 的默认额度)。这种 serverless 赌的就是你会不会长期运行。
没啥意义,qwen3-30B-A3B 的 4bit 量化在 M2 Ultra 上以 85 token/s 的速度秒了这一题,显存占用 18GB 左右。
prompt:从架构师角度分析这个问题"js 不使用 promise 完成一个 sleep 函数,必须支持 await 调用,还要能在浏览器使用",本地不跑大模型可以去官网 https://chat.qwen.ai/

当你掌握很多门语言之后,就知道那些屎一样的临时过渡方案就知道压根没必要看,JavaScript 的 async/await 都是抄 2012 年 C#发布的 5.0 语法,而且还没一次性抄对,中间搞那个 yield 恶心方案和过渡的 promise 方案,当时很流行的库有 co/bluebird/async 不知道有多少人记得。到了 2017 年 6 月 async/await 才正式并入规范,而 2017 年 5 月 Node.js 8.0 都正式支持 async/await 了,之前 6.x 都能通过参数开实验性支持了。

我从 8.0 开始用 Node.js ,当时直接上 TypeScript 写后端,根本懒得吃那些设计缺陷造的屎,原型链和这种 then 地狱风格的代码压根没写过一行,项目规范都禁止写这种代码。

至于你补充那个 python 例子,和异步也没啥关系,就一个默认递归深度,在带 GC 的语言中敢写递归之前不看限制或者有没有尾递归优化吗?
早期 sublime text 用多了,现在都是统一 sublime text 风格
2025 年 5 月 31 日
回复了 beyondstars 创建的主题 云计算 mac mini (2024) 作为家里云虚拟化平台的可行性
@also1412 OrbStack 不能用来长期做服务,因为它要定时联网检测来判断你的用途,我之前就碰到了代理配置错误但是因为平时丢角落里跑 LLM 所以也没发现,偶尔 vnc 连上去管理,某一次才发现 OrbStack 弹了个提示说联网失败,然后说我的用途有问题,所以自己退出了
2025 年 5 月 17 日
回复了 miaoxiaomayi 创建的主题 macOS 请教 Mac studio 部署 ai,用 ollama 还是 lm studio
用 LM Studio ,配合 MLX 和 DWQ 量化(最新的一个量化方法,质量很好)很不错,开 KV Cache 也方便,我拿 M2 Ultra 跑 Qwen3-30B-A3B-DWQ 的 4bit 版可以到 105token/s ,Qwen3-235B-A22B-DWQ 的 4bit 版本也能到 32token/s
2025 年 5 月 14 日
回复了 cj323 创建的主题 Node.js 吐槽一下 bun
bun 确实不稳定,有一些号称兼容了 node 的 api 其实还没兼容,加密库和文件流这块目前还有问题,我测试 exceljs 经常生成不了文件,http 库也有一个和 deno 一样的问题就是不支持 connect 事件,不知道是不是本身单元测试就有问题。

内存占用也有问题,同样的代码在 windows 下占用一百多 MB 内存,去到 linux 只占用 7MB…倒是 bun 内置那些函数库非常实用。其实碰到兼容性的问题如果能拆成独立小 api 用 node 或者 deno 去部署的话倒也还能接受,我就拆了 2 个这样的 api 。

deno 就很稳,拿来替代 node 一点问题都没有。

node 从 15 到现在的 24 都没啥吸引人的新特性,绝大部分都是缝缝补补,被 deno 和 bun 追上那是一点都不冤枉。
hk 节点拖了几个 T 的对象存储数据回来,没感到限速
2025 年 5 月 4 日
回复了 ysicing 创建的主题 美酒与美食 最近再喝冷泡茶, 有没有好的推荐?
绿茶系都可以,我一般是用狮峰的龙井或者茉莉,比例是 8 克茶叶一升水,如果泡 2 天以上可以减少 1 到 2 克茶叶,只要容器干净可以在冰箱放 2 周。
2025 年 3 月 16 日
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@mewking pcie 通道速度不会降低多少性能,现阶段 ExoLabs 的方案是靠网络通信都能玩,推理模型交换数据挺少的,刚好新鲜出炉一个部署案例 https://www.bilibili.com/video/BV1FvQrYQEPc
2025 年 3 月 7 日
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@mkdirmushroom
@jqknono
我的 Mac Studio 就是 192GB 的 M2 Ultra ,对于 M3 Ultra 跑 deepseek V3/R1 的速度我意见和 33 楼一致,最多是随着上下文越大速度不断衰减
2025 年 3 月 7 日
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@dongfanga 但是两者的激活参数差不多,速度上差距不大,得具体实测所有题目才好说,我只测了代码能力。而且 qwq-32b 跑起来条件太简单了,搞两张 16-24g 显存的卡,2 张 a770 都可以没什么压力
2025 年 3 月 7 日
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
@dongfanga 可行啊,我玩了一天了,6bit 量化下回答质量和 grok3 差不多
2025 年 3 月 5 日
回复了 Unclev21x 创建的主题 Apple 苹果刚刚推出了新款 Mac Studio
32B 模型 4bit 量化在 M2 Ultra 可以跑到 42token/s (开启 KV Cache ),而 deepseek v3 和 r1 的激活参数量都是 37B ,总参数量 671B ,在 512GB 内存上跑 4bit 量化为主,大体上也是 40~45token/s 左右(对比 M2 Ultra 算力和带宽的提升和激活参数变化所得)。
对比 deepseek 现在的官网价格,v3 每百万 token 输出为 8 元,r1 是 16 元,用 Mac Studio M3 Ultra 512GB 拿来跑 deepseek v3 的话大概是 74249/8 * 1000000 / 45 / 86400 = 2387 天回本,跑 r1 回本速度快一倍,只需 1193 天。
2025 年 3 月 4 日
回复了 momowei 创建的主题 计算机 帮忙看看这个 diy 装机配置搞开发怎样
@ifwww 我装过 3 个开发机了,一开始都是想着扩展性,到最后最多也就插个显卡插个机械盘。不如小型化,平时也方便带去公司做个团队测试环境,淘汰了还方便寄给家人。
2025 年 3 月 4 日
回复了 momowei 创建的主题 计算机 帮忙看看这个 diy 装机配置搞开发怎样
搞个 7945HX 准系统就行了 比如 https://item.jd.com/10122934326058.html ,两千多,16 核 32 线程,功耗低性能强,搞成迷你主机方案还不占地方,再插 2 条 48g 内存,妥妥的小钢炮。
2025 年 2 月 20 日
回复了 oldManNewThought 创建的主题 程序员 求大佬指点, ai 加知识库的内部原理
就是找出相关内容然后字符串拼接,看 llamaindex 代码就懂了,知识库都是围绕那三五十行代码做各种业务和 UI 的封装。
https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21

消耗 token 那是肯定的,所以去年 5 月 deepseek 把价格打到几乎是全行业的 1%,搞得其它几家也跟着降价,不然现在哪有那么多知识库的需求。
2025 年 2 月 15 日
回复了 lucien94xxx 创建的主题 Local LLM Deepseek R1 671B 本地部署计算机硬件配置?
什么并发要求?
https://x.com/carrigmat/status/1884244369907278106 6000 美元,用双路 epyc + 24 通道 ddr5 跑 q8 规格,6~8 token/s ,实际功耗不到 400w ,当然随着上下文越大每秒 token 数会下降,而且不出意外并发只有 1 。

然后最近又出了一个更多快好省的方案 KTransformers
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
https://www.reddit.com/r/LocalLLaMA/comments/1ilzcwm/671b_deepseekr1v3q4_on_a_single_machine_2_xeon/

将闲置的专家从内存中卸载、将核心专家放入显存而边缘专家放入内存,和 23 年年底上海交大那个 PowerInfer 思路很像,充分利用 CPU 和 GPU 的资源,按照上面的 cpu 方案加几块卡就够了。


需求不急的话可以等一波,先用着各种供应商提供的 api ( together.aifireworks.ai 等)
2025 年 2 月 15 日
回复了 raw0xff 创建的主题 Local LLM 想让本地运行的大语言模型可联网该怎么做?
https://docs.openwebui.com/features/ 这个集成了搜索,源码里集成了好几家搜索引擎,免费的话用的是 duckduckgo 的 https://github.com/open-webui/open-webui/blob/2017856791b666fac5f1c2f80a3bc7916439438b/backend/open_webui/retrieval/web/duckduckgo.py#L12 ,在容器里配个 http_proxy/https_proxy 或者丢海外部署就好了。
1  2  3  4  5  6  7  8  9  10 ... 28  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2552 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 43ms · UTC 09:53 · PVG 17:53 · LAX 02:53 · JFK 05:53
♥ Do have faith in what you're doing.