V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shuimugan  ›  全部回复第 2 页 / 共 22 页
回复总数  421
1  2  3  4  5  6  7  8  9  10 ... 22  
多人一机一般是 Aster + Sandboxie 绕开不能多开的软件检测,Aster 价格大概 200 多人民币
直接暴露在公网最容易挨打了,要暴露的话最起码加个 HTTP 基本认证 (Basic access authentication),可以大幅度减少产品自身爆 0day 后被日穿的风险。

如果是小团队内部使用的话又没什么运维能力的话,可以上 cloudflare 的 Zero Trust (本质上就是一个带鉴权的内网穿透),添加一个 tunnel ,再配个认证,比如先跳转 github 的授权页面拿到邮箱,判断邮箱在 cloudflare 配置的列表里了才能访问,这样就兼顾了安全和便捷,除非浏览器插件在偷 cookie 和自己人有内鬼,不然很难被日穿。
vmware 跑 gnome 一直是卡出屎的,你换 hyper-v + drm 倒是会流畅不少,我以前参考这个帖子 https://www.v2ex.com/t/838071 玩过一把。
另一个思路是 hyper-v + GPU-PV 的方式来把显卡也分给虚拟机,之前很多人用这个玩法结合 Easy-GPU-PV 项目做多人一机来整活,不过这个方案我只在虚拟机里也是 windows 的时候试过,虚拟机里也是 linux 的情况就没试过了。
62 天前
回复了 wqferan 创建的主题 Android 安卓 wifi 延迟不稳定
很古早的特性,我大概在安卓 8 的时候想把手机当服务器时就发现了
62 天前
回复了 juzisang 创建的主题 问与答 高性能 all in one 配置求推荐
5900x 去 bios 开 pbo eco 95w 模式,性能又好温度又低,我平时写代码+一堆浏览器窗口+几个虚拟机也就 45w 左右。加几百上 5950x 更爽,你搜 5950x+pbo eco 看评测就知道了
65 天前
回复了 Jinnrry 创建的主题 程序员 Google Gemma 开源没人讨论下吗?
规模太小了上限注定就那样,等 70B 以上规模的发布再看。我在等 https://www.phind.com/blog/introducing-phind-70b 这个开源
66 天前
回复了 szyp 创建的主题 分享发现 感觉苹果真的很严谨
这不是 seo 基本功吗?第一天学前端就会了啊
为什么不让小孩去沉迷骑马和滑雪,是因为没钱吗?
为什么不学学游戏策划教育他们小孩的方式?
你要找的是不是 ubuntu 的 lxd
72 天前
回复了 mikewang 创建的主题 程序员 大家如何看待代码中的拼写错误?
外部的不管,自己团队的坚持开拼写检查,碰到写错的坚决改,碰到离谱的还要拿出来鞭尸。妈的以前有个功能在开发文档里叫去重,有个同事查了下翻译然后字段写了个 go_heavy ,震惊我一整年,被我长期拿来做反面例子,教育他们一定要看 IDE 的告警,提交前要保证所有告警消失。
你这个不叫本地文件过大,这个叫本地内存太小。我以前都是在公司丢一台 128G 内存台式机干点数据处理的脏活累活,你这个场景分分钟就搞定了
80 天前
回复了 cmonkey 创建的主题 硬件 运行 LM Studio 的电脑硬件配置
这个预算,可以看看托管的价格 https://www.together.ai/pricing 不贵。


1:不要指望单张 4090 跑大模型可以秒天秒地,实际上爆显存之后就是个弟中弟。2 张 24G 显存的卡凑 48G 也只能跑个 Mixtral-8x7B 量化版 ,这几天 CodeLlama-70b 和 Qwen1.5-72B-Chat 刚发布,你要不要跑跑?
2:不要指望 N 卡那个显存不够使用内存的回退机制,那个只会越跑越慢慢慢慢慢,还不如直接爆了告诉你显存不够,重新划分模型的卸载层数。
3:不要指望存粹的 CPU+大内存机器跑大模型可以秒显卡,内存的带宽真的是比显存小太太太太太多了。参考 https://www.reddit.com/r/LocalLLaMA/comments/14q4d0a/cpu_ram_only_speeds_on_65b/https://www.reddit.com/r/LocalLLaMA/comments/13upwrl/cpu_only_performance/
4:没有 nvlink 纯靠 pcie 通讯的多卡方案,卡约多损耗越大,不要指望多卡的性能是线性增长的。参考 https://www.reddit.com/r/LocalLLaMA/comments/190f1c1/specs_and_gotchas_from_playing_with_an_llm_rig/
5:如果你觉得 4090 太贵,想买 2 张 7900xtx 组成 48G 显存的机器,那么可以参考这个帖子的速度对比 https://www.reddit.com/r/LocalLLaMA/comments/191srof/amd_radeon_7900_xtxtx_inference_performance/
6:如果执意要在这预算内买全新机器跑大模型,可以等等 https://github.com/SJTU-IPADS/PowerInfer 这个项目支持更多的模型和显卡。
7:mac 的 ultra 系列 + 大内存很适合跑大模型,还可以通过命令解除默认显存只给用 80%总容量的限制,增加显存的分配,参考 https://www.reddit.com/r/LocalLLaMA/comments/186phti/m1m2m3_increase_vram_allocation_with_sudo_sysctl/
换个思路,写扩展就是写一小段函数,一小段函数在云平台里比较成熟的方案就是 serverless 。那么可以直接定好几个接口格式,用户喜欢用什么语言写就用什么语言写,每个事件前后就是一个 http 请求打过去,根据接口响应来决定后面怎么处理。
当用户在各种平台讨论并贴出一段测试用的脚本时,你无法预估平台会对代码做什么格式化处理,如果是 python 脚本这种强缩进相关的,随便一个缩进错乱就搞得脚本出错了。我已经见过好多例新手因为缩进问题搞出的低级 bug ,你这种半成品编辑面板,就是让用户在外面写好之后再复制进去的,更容易出问题了。
87 天前
回复了 txzh007 创建的主题 程序员 内网版本应用如何解决授权问题
作为初中就开始自学破解的人,一瞬间脑子想过 N 种方案,同时想到的是更多破解思路和技巧……我建议就是简单搞搞就行了,防盗版一般靠新功能迭代和售后维护这种策略。你看 IDA Pro 这种专业搞反编译的逆向软件,自己还是被破解了。
@cwcc 也就 ultra 系列的 mac 带宽是比得上显卡的,你买我不推荐,我买我真买……上个月买了个官翻的 192GB 的 m2 ultra ,就是为了本地跑大模型用的,价格也就 4.5w 还能 24 期免息,我还忘记叠加内部员工优惠不然还能再少几千,这样一轮下来还真的比 2 个显卡+其它硬件拼凑一台整机便宜而且省心。

你买 2 个 4090 也就 48GB 显存,一旦显存不够把模型层一部分卸载到内存就速度骤降,而且双卡通讯损耗也大,现阶段跑个 70B 规格 4bit 量化到头了,除非等 PowerInfer 支持多卡了看看效果。

4 个 3090 的话机箱大功耗高,更别说噪音了,而且也不知道显卡经历了几个哥布林窟,家用还是不太现实。

9 楼的举的极端场景就是我的真实案例,我就是拿来给上亿条文本做分类的,算完租卡费用和调用云 api 后发现,还是买个 mac 性价比最高,你要是没这种需求还是租卡好。
@cwcc 龟速,大模型很吃带宽,内存带宽现在一般是显存的 1/40 到 1/30 ,用 cpu 跑大模型瓶颈全在带宽上
108 天前
回复了 Int100 创建的主题 程序员 AI(大模型)本地化项目 和 部署设备
客户端
https://lmstudio.ai/ 界面布局合理,功能也 ok 。
https://github.com/oobabooga/text-generation-webui/ 界面不太好用但功能丰富,适合丢公网加个密码访问。
都支持上下文不足被截断时那个 continue 继续续写,都支持多种显卡加速,都支持开 OpenAI 格式的接口方便你拿其它客户端去调用。

模型
https://huggingface.co/TheBloke 下载量化后的 GGUF 格式,一般看自己内存多大下载对应的规格,Q8 是损耗最小的但是最占资源速度也最慢,Q4_K_M 相对平衡。我现在喜欢下载 Q5_K_M 以上玩

设备
m2 ultra 76-core 192gb 官翻版

推荐模型
https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF CodeLlama 的微调版,我拿来写代码还可以,Q4_K_M 规格量化速度 23token/s
https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Mixtral-8x7B:混合专家模型,速度很快准确率也 ok ,Q4_K_M 规格量化速度 50token/s ,Q5_K_M 是 37token/s
https://huggingface.co/TheBloke/Yi-34B-200K-GGUF 零一万物,中文能力不错,有黄文的模型是基于它做的微调,而且有 200k 的上下文,Q8 规格 开启 20w 字上下文,内存不放模型占用 48GB ,内存也放模型占用 83GB ,真微服务的话整个服务丢进去问问题也可以
https://huggingface.co/TheBloke/vicuna-13B-v1.5-GGUF 刚出来的时候一鸣惊人,很小很强悍,中文能力也不错,能写黄文能写代码。


其它推荐
https://www.reddit.com/r/LocalLLaMA/ 上面玩本地模型的很多,讨论热度高。
https://github.com/SJTU-IPADS/PowerInfer 灵活使用 cpu 和 gpu 的内存,让更小显存的设备跑大模型有更快的速度,todo 里有多 GPU 和 M 系列芯片的计划,值得期待,我的 2 个 2080ti 22g 有望在今年跑 70B 规格嗖嗖快了。
https://github.com/ml-explore/mlx-examples 不喜欢跑量化的要满血的,可以用苹果的 mlx 框架来驱动模型,按说明先转换格式就可以跑起来了,我现在也期待其它客户端把它也整合进去。
1  2  3  4  5  6  7  8  9  10 ... 22  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1607 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 16:50 · PVG 00:50 · LAX 09:50 · JFK 12:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.