V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  robbaa  ›  全部回复第 1 页 / 共 2 页
回复总数  40
1  2  
把空调洗一洗,b 站有人做过测试,空调的效率最高
20 天前
回复了 cnbatch 创建的主题 Python 𝜋thon ( Python 3.14)
没准这会变成未来最受欢迎的一个版本
双 3090+nvlink 先用着,后期再说后期的问题,到时候说不定 6090 都出来了
83 天前
回复了 gzldc 创建的主题 Solana 5000 枚$v2ex 空投 留下你的地址
3SQcspHfHPvz7Jdxky5R9pKUvBRmeZvB89UJh3wCyVsh

感谢大佬
币安换成 sol 提现走 sol 链,1 分钟不要
86 天前
回复了 Livid 创建的主题 Solana 20250805 - Cold Wallet 操作说明
已绑定,100 刀入坑 @Livid
感谢,兑换成功
134 天前
回复了 xujdan 创建的主题 生活 我是不是太冷血了?
正常,但也有可能是没有反应过来。
前些年外婆去世,只觉得生老病死正常,前面都没哭过。
结果出礼堂看到烟囱飘烟就哭了。
看起来不错,star 支持一下
炒 A 股,天天都刺激
227 天前
回复了 xption 创建的主题 程序员 如何说服同事使用 Cursor?
代码补全+赛博许愿?
2017 款 MBP 13 中招,在犹豫怎么搞
2024-10-08 11:12:19 +08:00
回复了 kingmo888 创建的主题 软件 有没有好的计划管理工具(web/PC),帮忙推荐下,谢谢。
关键是习惯,养成习惯 vscode 都行
2024-09-30 16:33:18 +08:00
回复了 jedeft 创建的主题 程序员 搞一台 4090 服务器放客厅怎么样?
@jedeft 考虑下室外,开空调都是烤火
2024-05-15 09:03:46 +08:00
回复了 kitazawa 创建的主题 程序员 大学本科,课程期末设计,选什么项目比较好啊。。。。
@kitazawa 学校作业,有时间点,有实现功能就好了。

jsp 写个信息管理系统,安卓套一下 h5 搞定,几个页面:注册、登录、退出、列表、发布、更新
2024-05-10 19:20:15 +08:00
回复了 techdai 创建的主题 生活 大家有什么泡水喝不腻的❓
吨吨杯+酸梅汤
@leeum 测试版还是有问题,结果不理想。

70b
单次请求:17~20s
并行 4 ,4 个请求,4 个成功,平均 30s
并行 6 ,6 个请求,6 个成功,平均 33s
并行 8 ,8 个请求,8 个成功,平均 41s
并行 9 ,9 个请求,9 个成功,平均 130s (确实如此)
并行 10 ,10 个请求,10 个成功,平均 142s
并行 11 ,11 个请求,11 个成功,平均 150s

8b
并行 8 ,8 个请求,8 个成功,平均 14s
并行 9 ,9 个请求,6 个成功,平均 25s
并行 10 ,10 个请求,10 个成功,平均 32s
并行 11 ,11 个请求,11 个成功,平均 34s
并行 12 ,返回异常

测试多了,还会出现“话痨”现象。正常回复在 40k 左右,“话痨”状态在 380k 以上

======

@imFu 我初学状态
ab -c 10 -n 10 -p ./testchat.json -T "application/json" -H 'Content-Type: application/json' http://localhost:11434/api/chat

testchat.json 中内容
```
{
"model": "llama3:70b",
"stream": true,
"frequency_penalty": 0,
"presence_penalty": 0,
"temperature": 0.6,
"top_p": 1,
"messages": [
{
"content": "安排一个南京的 2 天的旅游攻略,用中文回答",
"role": "user"
}
]
}
```
@ispinfx ollama 目前是单线程模型。
ab 工具测试 10 并发 10 请求,耗时 312 秒, 没有并发可言
给你个参考:
环境:双 3090 + nvlink + docker
命令:ollama run llama3:70b --verbose
刚刚好可以塞下。

ollama-1 | ggml_cuda_init: found 2 CUDA devices:
ollama-1 | Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
ollama-1 | Device 1: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
ollama-1 | llm_load_tensors: ggml ctx size = 0.83 MiB
ollama-1 | llm_load_tensors: offloading 80 repeating layers to GPU
ollama-1 | llm_load_tensors: offloading non-repeating layers to GPU
ollama-1 | llm_load_tensors: offloaded 81/81 layers to GPU
ollama-1 | llm_load_tensors: CPU buffer size = 563.62 MiB
ollama-1 | llm_load_tensors: CUDA0 buffer size = 18821.56 MiB
ollama-1 | llm_load_tensors: CUDA1 buffer size = 18725.42 MiB


测试三次结果:

total duration: 25.820168178s
load duration: 1.436783ms
prompt eval count: 14 token(s)
prompt eval duration: 483.796ms
prompt eval rate: 28.94 tokens/s
eval count: 448 token(s)
eval duration: 25.203697s
eval rate: 17.78 tokens/s


total duration: 30.486672187s
load duration: 1.454596ms
prompt eval count: 479 token(s)
prompt eval duration: 2.025687s
prompt eval rate: 236.46 tokens/s
eval count: 496 token(s)
eval duration: 28.322837s
eval rate: 17.51 tokens/s


total duration: 21.176605423s
load duration: 2.629646ms
prompt eval count: 529 token(s)
prompt eval duration: 2.325535s
prompt eval rate: 227.47 tokens/s
eval count: 324 token(s)
eval duration: 18.622355s
eval rate: 17.40 tokens/s
1  2  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5319 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 52ms · UTC 06:56 · PVG 14:56 · LAX 23:56 · JFK 02:56
♥ Do have faith in what you're doing.