jinsongzhaocn's recent timeline updates
jinsongzhaocn

jinsongzhaocn

V2EX member #460727, joined on 2019-12-22 23:54:22 +08:00
Today's activity rank 11573
jinsongzhaocn's recent replies
@PeterTanJJ 27b 的速度,参数和 post 结构影响很大. 我经历过 11 秒到 1 秒的提速
文档写得好认真, 感觉丢给 AI 可以开始写出来了. Kwcode 最难的可能是定位了, CC 的定位其实挺完善的, 非常难竞争. CC 很开放,它可以对接第三方大模型,对接本地模型也足够写汇总规划,引流方面这已经是极致了吧,对比其他大厂推出的 coding 工具,都是适配自家模型; 虽然禁止国内访问, 但这也是最契合它的商业定位.毕竟中国是超级流量,但是总体消费水平还不够高,大量的多人共享账号,哪怕实名制也够呛能控制. 应该算是把开放性和成本控制都做到了最佳实现.再偏袒用户一点,估计就是允许多路由了,选不同模型切换不同的供应商, 这个又被 OpenCode 实现了, 但也验证了开了这个口子,收入大减,OpenCode 的兼容适配速度这么慢就知道缺少资源投入.
参考这里的回复: https://www.v2ex.com/t/1210011?p=1#reply7
跑过 lightRAG 的配置
給 24GB 显存的推荐一个实用的组合:
# LLM 模型+嵌入模型+24GB 显存组合配置(2026-04-30)
## Qwen-9B 19252MB LLM 模型
docker run -d --name vllm-qwen3.5-9b-awq-bf16-int4 --gpus all \
-p 8100:8000 \
-e VLLM_USE_MODELSCOPE=True \
-v /home/tab/docs/vllm_model:/models \
vllm/vllm-openai:v0.19.0-ubuntu2404 \
--model /models/cyankiwi/Qwen3___5-9B-AWQ-BF16-INT4 \
--served-model-name Qwen3-9B \
--host 0.0.0.0 \
--port 8000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--enable-auto-tool-choice \
--max-model-len auto \
--max-num-seqs 4 \
--enable-prefix-caching \
--speculative-config '{"method":"mtp","num_speculative_tokens":2}' \
--gpu-memory-utilization 0.80

## bge-m3(1024 维度) 嵌入模型
docker run -d \
--gpus all \
--name vllm-baai-bge-m3 \
--ipc=host \
-p 8101:8000 \
-v /home/tab/docs/vllm_model:/models \
-e VLLM_USE_MODELSCOPE=True \
vllm/vllm-openai:v0.19.0-ubuntu2404 \
--model /models/BAAI/bge-m3 \
--served-model-name bge-m3 \
--gpu-memory-utilization 0.2
这种配置要亏死你, 你的成本怎么可能做得过算力云供应商. 就算自己也用, 也是极其浪费的.
Nov 12, 2025
Replied to a topic by lswlray 创业组队 你,能不能,不要钱
投资人奇葩的很多
Oct 23, 2025
Replied to a topic by mingtdlb Linux 麒麟和统信哪个更有前途?
yum 生态不如 apt 了,所有麒麟也沾光了。
Claude 是遇强则强,反之遇到菜鸟依旧菜,还有些没 Claude 经验的老手,则看能不能适应转变了。总之学习能力非常重要。至于技术 Leader ,基本都是自己的想法打动了领导,于是拿着领导的资源,验证自己的想法,最大弊端就是,不是自己的资源,失败就跑路,没有背水一战的觉悟。
@tommark 产品是语音交互,偏电话通信类型. 涉及技术很杂, 网络,运维, 协议, 音视频, 数据库,工单, AI 交互,知识库.
想做通用和大的当然感觉任何领域都开发完了,但是小众定制的还是非常非常多的,只不过,首先不做这些领域就不知道还能做这些产品可以开放,其次因为小众难以推广,做不成大流量大厂。
@gaobh
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2464 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 07:20 · PVG 15:20 · LAX 00:20 · JFK 03:20
♥ Do have faith in what you're doing.