V2EX › shuimugan 的所有回复 › 第 2 页 / 共 22 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 22

❮

❯

57 天前

回复了 bthulu 创建的主题 › 硬件 › 一个主机带俩独显无集显, 还有两套键鼠. 有办法实现两个人同时玩 3A 游戏么?

多人一机一般是 Aster + Sandboxie 绕开不能多开的软件检测，Aster 价格大概 200 多人民币

58 天前

回复了 dnjat 创建的主题 › 服务器 › 第三方工具部署到服务器后,外网如何管理,配置,查看?

直接暴露在公网最容易挨打了，要暴露的话最起码加个 HTTP 基本认证 (Basic access authentication)，可以大幅度减少产品自身爆 0day 后被日穿的风险。

如果是小团队内部使用的话又没什么运维能力的话，可以上 cloudflare 的 Zero Trust （本质上就是一个带鉴权的内网穿透），添加一个 tunnel ，再配个认证，比如先跳转 github 的授权页面拿到邮箱，判断邮箱在 cloudflare 配置的列表里了才能访问，这样就兼顾了安全和便捷，除非浏览器插件在偷 cookie 和自己人有内鬼，不然很难被日穿。

61 天前

回复了 joyanhui 创建的主题 › 程序员 › 2024 年了 win 虚拟机跑 Linux 的桌面，能应付日用吗？

vmware 跑 gnome 一直是卡出屎的，你换 hyper-v + drm 倒是会流畅不少，我以前参考这个帖子 https://www.v2ex.com/t/838071 玩过一把。
另一个思路是 hyper-v + GPU-PV 的方式来把显卡也分给虚拟机，之前很多人用这个玩法结合 Easy-GPU-PV 项目做多人一机来整活，不过这个方案我只在虚拟机里也是 windows 的时候试过，虚拟机里也是 linux 的情况就没试过了。

62 天前

回复了 wqferan 创建的主题 › Android › 安卓 wifi 延迟不稳定

很古早的特性,我大概在安卓 8 的时候想把手机当服务器时就发现了

62 天前

回复了 juzisang 创建的主题 › 问与答 › 高性能 all in one 配置求推荐

5900x 去 bios 开 pbo eco 95w 模式，性能又好温度又低，我平时写代码+一堆浏览器窗口+几个虚拟机也就 45w 左右。加几百上 5950x 更爽，你搜 5950x+pbo eco 看评测就知道了

65 天前

回复了 Jinnrry 创建的主题 › 程序员 › Google Gemma 开源没人讨论下吗？

规模太小了上限注定就那样，等 70B 以上规模的发布再看。我在等 https://www.phind.com/blog/introducing-phind-70b 这个开源

66 天前

回复了 szyp 创建的主题 › 分享发现 › 感觉苹果真的很严谨

这不是 seo 基本功吗？第一天学前端就会了啊

71 天前

回复了 superdotcom 创建的主题 › OpenWrt › 孩子天天只想玩游戏，如何在路由器 openwrt 上屏蔽游戏和短视频网站

为什么不让小孩去沉迷骑马和滑雪，是因为没钱吗？
为什么不学学游戏策划教育他们小孩的方式？

71 天前

回复了 mmr 创建的主题 › Docker › 把 docker 中的 debian 当虚拟机使用有什么潜在问题吗？

你要找的是不是 ubuntu 的 lxd

72 天前

回复了 mikewang 创建的主题 › 程序员 › 大家如何看待代码中的拼写错误？

外部的不管，自己团队的坚持开拼写检查，碰到写错的坚决改，碰到离谱的还要拿出来鞭尸。妈的以前有个功能在开发文档里叫去重，有个同事查了下翻译然后字段写了个 go_heavy ，震惊我一整年，被我长期拿来做反面例子，教育他们一定要看 IDE 的告警，提交前要保证所有告警消失。

72 天前

回复了 FeifeiJin 创建的主题 › 程序员 › 超大型文件比较，内存不足，只能分页读区再匹配，但头都秃了，也没想到优化的方式，朋友们帮帮忙啊。

你这个不叫本地文件过大，这个叫本地内存太小。我以前都是在公司丢一台 128G 内存台式机干点数据处理的脏活累活，你这个场景分分钟就搞定了

80 天前

回复了 cmonkey 创建的主题 › 硬件 › 运行 LM Studio 的电脑硬件配置

这个预算，可以看看托管的价格 https://www.together.ai/pricing 不贵。

1：不要指望单张 4090 跑大模型可以秒天秒地，实际上爆显存之后就是个弟中弟。2 张 24G 显存的卡凑 48G 也只能跑个 Mixtral-8x7B 量化版，这几天 CodeLlama-70b 和 Qwen1.5-72B-Chat 刚发布，你要不要跑跑？
2：不要指望 N 卡那个显存不够使用内存的回退机制，那个只会越跑越慢慢慢慢慢，还不如直接爆了告诉你显存不够，重新划分模型的卸载层数。
3：不要指望存粹的 CPU+大内存机器跑大模型可以秒显卡，内存的带宽真的是比显存小太太太太太多了。参考 https://www.reddit.com/r/LocalLLaMA/comments/14q4d0a/cpu_ram_only_speeds_on_65b/ 和 https://www.reddit.com/r/LocalLLaMA/comments/13upwrl/cpu_only_performance/
4：没有 nvlink 纯靠 pcie 通讯的多卡方案，卡约多损耗越大，不要指望多卡的性能是线性增长的。参考 https://www.reddit.com/r/LocalLLaMA/comments/190f1c1/specs_and_gotchas_from_playing_with_an_llm_rig/
5：如果你觉得 4090 太贵，想买 2 张 7900xtx 组成 48G 显存的机器，那么可以参考这个帖子的速度对比 https://www.reddit.com/r/LocalLLaMA/comments/191srof/amd_radeon_7900_xtxtx_inference_performance/
6：如果执意要在这预算内买全新机器跑大模型，可以等等 https://github.com/SJTU-IPADS/PowerInfer 这个项目支持更多的模型和显卡。
7：mac 的 ultra 系列 + 大内存很适合跑大模型，还可以通过命令解除默认显存只给用 80%总容量的限制，增加显存的分配，参考 https://www.reddit.com/r/LocalLLaMA/comments/186phti/m1m2m3_increase_vram_allocation_with_sudo_sysctl/

83 天前

回复了 MegatronKing 创建的主题 › 推广 › 在扩展脚本方面，用户为何不太愿意接受 Python ?

换个思路，写扩展就是写一小段函数，一小段函数在云平台里比较成熟的方案就是 serverless 。那么可以直接定好几个接口格式，用户喜欢用什么语言写就用什么语言写，每个事件前后就是一个 http 请求打过去，根据接口响应来决定后面怎么处理。

83 天前

回复了 MegatronKing 创建的主题 › 推广 › 在扩展脚本方面，用户为何不太愿意接受 Python ?

当用户在各种平台讨论并贴出一段测试用的脚本时，你无法预估平台会对代码做什么格式化处理，如果是 python 脚本这种强缩进相关的，随便一个缩进错乱就搞得脚本出错了。我已经见过好多例新手因为缩进问题搞出的低级 bug ，你这种半成品编辑面板，就是让用户在外面写好之后再复制进去的，更容易出问题了。

84 天前

回复了 huahsiung 创建的主题 › 信息安全 › 程序使用 ORM 框架是不是基本就可以解决 SQL 注入了？

攻击方就喜欢你这种思想，请看下面 2 个漏洞案例：
https://www.yiiframework.com/news/168/releasing-yii-2-0-15-and-database-extensions-with-security-fixes
https://github.com/yiisoft/yii2/issues/19755

87 天前

回复了 txzh007 创建的主题 › 程序员 › 内网版本应用如何解决授权问题

作为初中就开始自学破解的人，一瞬间脑子想过 N 种方案，同时想到的是更多破解思路和技巧……我建议就是简单搞搞就行了，防盗版一般靠新功能迭代和售后维护这种策略。你看 IDA Pro 这种专业搞反编译的逆向软件，自己还是被破解了。

99 天前

回复了 yuyue001 创建的主题 › 程序员 › 有人（个人）自己使用开源的 LLM 大模型吗？

@cwcc 也就 ultra 系列的 mac 带宽是比得上显卡的，你买我不推荐，我买我真买……上个月买了个官翻的 192GB 的 m2 ultra ，就是为了本地跑大模型用的，价格也就 4.5w 还能 24 期免息，我还忘记叠加内部员工优惠不然还能再少几千，这样一轮下来还真的比 2 个显卡+其它硬件拼凑一台整机便宜而且省心。

你买 2 个 4090 也就 48GB 显存，一旦显存不够把模型层一部分卸载到内存就速度骤降，而且双卡通讯损耗也大，现阶段跑个 70B 规格 4bit 量化到头了，除非等 PowerInfer 支持多卡了看看效果。

4 个 3090 的话机箱大功耗高，更别说噪音了，而且也不知道显卡经历了几个哥布林窟，家用还是不太现实。

9 楼的举的极端场景就是我的真实案例，我就是拿来给上亿条文本做分类的，算完租卡费用和调用云 api 后发现，还是买个 mac 性价比最高，你要是没这种需求还是租卡好。

99 天前

回复了 yuyue001 创建的主题 › 程序员 › 有人（个人）自己使用开源的 LLM 大模型吗？

@cwcc 龟速，大模型很吃带宽，内存带宽现在一般是显存的 1/40 到 1/30 ，用 cpu 跑大模型瓶颈全在带宽上

108 天前

回复了 Int100 创建的主题 › 程序员 › AI（大模型）本地化项目和部署设备

客户端
https://lmstudio.ai/ 界面布局合理，功能也 ok 。
https://github.com/oobabooga/text-generation-webui/ 界面不太好用但功能丰富，适合丢公网加个密码访问。
都支持上下文不足被截断时那个 continue 继续续写，都支持多种显卡加速，都支持开 OpenAI 格式的接口方便你拿其它客户端去调用。

模型
https://huggingface.co/TheBloke 下载量化后的 GGUF 格式，一般看自己内存多大下载对应的规格，Q8 是损耗最小的但是最占资源速度也最慢，Q4_K_M 相对平衡。我现在喜欢下载 Q5_K_M 以上玩

设备
m2 ultra 76-core 192gb 官翻版

推荐模型
https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF CodeLlama 的微调版，我拿来写代码还可以，Q4_K_M 规格量化速度 23token/s
https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Mixtral-8x7B：混合专家模型，速度很快准确率也 ok ，Q4_K_M 规格量化速度 50token/s ，Q5_K_M 是 37token/s
https://huggingface.co/TheBloke/Yi-34B-200K-GGUF 零一万物，中文能力不错，有黄文的模型是基于它做的微调，而且有 200k 的上下文，Q8 规格开启 20w 字上下文，内存不放模型占用 48GB ，内存也放模型占用 83GB ，真微服务的话整个服务丢进去问问题也可以
https://huggingface.co/TheBloke/vicuna-13B-v1.5-GGUF 刚出来的时候一鸣惊人，很小很强悍，中文能力也不错，能写黄文能写代码。

其它推荐
https://www.reddit.com/r/LocalLLaMA/ 上面玩本地模型的很多，讨论热度高。
https://github.com/SJTU-IPADS/PowerInfer 灵活使用 cpu 和 gpu 的内存，让更小显存的设备跑大模型有更快的速度，todo 里有多 GPU 和 M 系列芯片的计划，值得期待，我的 2 个 2080ti 22g 有望在今年跑 70B 规格嗖嗖快了。
https://github.com/ml-explore/mlx-examples 不喜欢跑量化的要满血的，可以用苹果的 mlx 框架来驱动模型，按说明先转换格式就可以跑起来了，我现在也期待其它客户端把它也整合进去。

1 2 3 4 5 6 7 8 9 10 ... 22

❮

❯