V2EX › robbaa 的所有回复 › 第 1 页 / 共 2 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2

❮

❯

9 天前

回复了 goodhellonice 创建的主题 › 问与答 › 不考虑能耗电费的话，屋子里用 1 油汀， 2 暖风机（包括小太阳）， 3 踢脚线取暖器，哪个实际体验更好点？

把空调洗一洗，b 站有人做过测试，空调的效率最高

20 天前

回复了 cnbatch 创建的主题 › Python › 𝜋thon ( Python 3.14)

没准这会变成未来最受欢迎的一个版本

21 天前

回复了 Saunak 创建的主题 › Local LLM › 家用 AI 开发机， GPU 在“魔改 4090 48G”和“等 5090 32G”之间纠结，求大佬们给点建议！

双 3090+nvlink 先用着，后期再说后期的问题，到时候说不定 6090 都出来了

83 天前

回复了 gzldc 创建的主题 › Solana › 5000 枚$v2ex 空投留下你的地址

3SQcspHfHPvz7Jdxky5R9pKUvBRmeZvB89UJh3wCyVsh

感谢大佬

85 天前

回复了 zsl199512101234 创建的主题 › Solana › 为什么我朋友从欧意交易所给我 Phantom 转 U 要好几分钟才到账有大佬送我一点 sol 手续费吗， U 没法换成 sol

币安换成 sol 提现走 sol 链，1 分钟不要

86 天前

回复了 Livid 创建的主题 › Solana › 20250805 - Cold Wallet 操作说明

已绑定，100 刀入坑 @Livid

122 天前

回复了 zhixiao 创建的主题 › 优惠信息 › [官方优惠] 免费兑换一年 jetbrain all products

感谢，兑换成功

134 天前

回复了 xujdan 创建的主题 › 生活 › 我是不是太冷血了？

正常，但也有可能是没有反应过来。
前些年外婆去世，只觉得生老病死正常，前面都没哭过。
结果出礼堂看到烟囱飘烟就哭了。

147 天前

回复了 461229187 创建的主题 › 程序员 › 突然被一群老外 star，一看原来是上了 Hacker News 首页

看起来不错，star 支持一下

150 天前

回复了 silvio 创建的主题 › 买买买 › 有点闲钱，想花钱买快乐，求老哥们推荐，预算 6 万

炒 A 股，天天都刺激

227 天前

回复了 xption 创建的主题 › 程序员 › 如何说服同事使用 Cursor？

代码补全+赛博许愿?

254 天前

回复了 foru17 创建的主题 › MacBook Pro › 我的 Macbook Pro 中招了"屏幕门": 建议用 16 到 18 款的 MBP 用户可以关注下

2017 款 MBP 13 中招，在犹豫怎么搞

2024-10-08 11:12:19 +08:00

回复了 kingmo888 创建的主题 › 软件 › 有没有好的计划管理工具（web/PC），帮忙推荐下，谢谢。

关键是习惯，养成习惯 vscode 都行

2024-09-30 16:33:18 +08:00

回复了 jedeft 创建的主题 › 程序员 › 搞一台 4090 服务器放客厅怎么样？

@jedeft 考虑下室外，开空调都是烤火

2024-05-15 09:03:46 +08:00

回复了 kitazawa 创建的主题 › 程序员 › 大学本科，课程期末设计，选什么项目比较好啊。。。。

@kitazawa 学校作业，有时间点，有实现功能就好了。

jsp 写个信息管理系统，安卓套一下 h5 搞定，几个页面：注册、登录、退出、列表、发布、更新

2024-05-10 19:20:15 +08:00

回复了 techdai 创建的主题 › 生活 › 大家有什么泡水喝不腻的❓

吨吨杯+酸梅汤

2024-05-01 23:22:01 +08:00

回复了 leeum 创建的主题 › Local LLM › 使用 llama3:70b 本地化部署， 100 人左右的并发，大概需要多少块 4090 才能满足？

@leeum 测试版还是有问题，结果不理想。

70b
单次请求：17~20s
并行 4 ，4 个请求，4 个成功，平均 30s
并行 6 ，6 个请求，6 个成功，平均 33s
并行 8 ，8 个请求，8 个成功，平均 41s
并行 9 ，9 个请求，9 个成功，平均 130s （确实如此）
并行 10 ，10 个请求，10 个成功，平均 142s
并行 11 ，11 个请求，11 个成功，平均 150s

8b
并行 8 ，8 个请求，8 个成功，平均 14s
并行 9 ，9 个请求，6 个成功，平均 25s
并行 10 ，10 个请求，10 个成功，平均 32s
并行 11 ，11 个请求，11 个成功，平均 34s
并行 12 ，返回异常

测试多了，还会出现“话痨”现象。正常回复在 40k 左右，“话痨”状态在 380k 以上

======

@imFu 我初学状态

2024-04-30 20:46:15 +08:00

回复了 leeum 创建的主题 › Local LLM › 使用 llama3:70b 本地化部署， 100 人左右的并发，大概需要多少块 4090 才能满足？

ab -c 10 -n 10 -p ./testchat.json -T "application/json" -H 'Content-Type: application/json' http://localhost:11434/api/chat

testchat.json 中内容
```
{
"model": "llama3:70b",
"stream": true,
"frequency_penalty": 0,
"presence_penalty": 0,
"temperature": 0.6,
"top_p": 1,
"messages": [
{
"content": "安排一个南京的 2 天的旅游攻略，用中文回答",
"role": "user"
}
]
}
```

2024-04-30 20:37:15 +08:00

回复了 leeum 创建的主题 › Local LLM › 使用 llama3:70b 本地化部署， 100 人左右的并发，大概需要多少块 4090 才能满足？

@ispinfx ollama 目前是单线程模型。
ab 工具测试 10 并发 10 请求，耗时 312 秒，没有并发可言

2024-04-29 22:29:42 +08:00

回复了 leeum 创建的主题 › Local LLM › 使用 llama3:70b 本地化部署， 100 人左右的并发，大概需要多少块 4090 才能满足？

给你个参考：
环境：双 3090 + nvlink + docker
命令：ollama run llama3:70b --verbose
刚刚好可以塞下。

ollama-1 | ggml_cuda_init: found 2 CUDA devices:
ollama-1 | Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
ollama-1 | Device 1: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
ollama-1 | llm_load_tensors: ggml ctx size = 0.83 MiB
ollama-1 | llm_load_tensors: offloading 80 repeating layers to GPU
ollama-1 | llm_load_tensors: offloading non-repeating layers to GPU
ollama-1 | llm_load_tensors: offloaded 81/81 layers to GPU
ollama-1 | llm_load_tensors: CPU buffer size = 563.62 MiB
ollama-1 | llm_load_tensors: CUDA0 buffer size = 18821.56 MiB
ollama-1 | llm_load_tensors: CUDA1 buffer size = 18725.42 MiB

测试三次结果：

total duration: 25.820168178s
load duration: 1.436783ms
prompt eval count: 14 token(s)
prompt eval duration: 483.796ms
prompt eval rate: 28.94 tokens/s
eval count: 448 token(s)
eval duration: 25.203697s
eval rate: 17.78 tokens/s

total duration: 30.486672187s
load duration: 1.454596ms
prompt eval count: 479 token(s)
prompt eval duration: 2.025687s
prompt eval rate: 236.46 tokens/s
eval count: 496 token(s)
eval duration: 28.322837s
eval rate: 17.51 tokens/s

total duration: 21.176605423s
load duration: 2.629646ms
prompt eval count: 529 token(s)
prompt eval duration: 2.325535s
prompt eval rate: 227.47 tokens/s
eval count: 324 token(s)
eval duration: 18.622355s
eval rate: 17.40 tokens/s

1 2

❮

❯