首页
注册
登录
naclfish2333 最近的时间轴更新
naclfish2333
V2EX 第 496233 号会员,加入于 2020-06-24 21:55:01 +08:00
naclfish2333
提问
技术话题
好玩
工作信息
交易信息
城市相关
naclfish2333 最近回复了
47 天前
回复了
andforce
创建的主题
›
程序员
›
约 192GB 短信样本如何标记分类?
@
yuxizhe
能不能跑起来主要看显存,glm-4 是 9B 的模型,全精度大概要占用到 17G 左右的显存。3090 单卡好像是 25G 左右,是足够了,但是 vllm 这个框架的策略是尽量占满显存的。
至于效果,只能是差强人意,我是要求模型分析词语和某个领域的相关性。直接输出输出一个 1 到 5 的数字,代表这个词和这个领域的相关性。
最后确实是可以正确分类,但是可能是 prompt 没写好或者分类的颗粒度分得太细了,导致分类的结果不是很一致。比如“电阻”模型会给出“5”,但是“电容”又会给出“4”。
48 天前
回复了
andforce
创建的主题
›
程序员
›
约 192GB 短信样本如何标记分类?
使用大模型并没有 op 想象的那么久,我之前才用 vllm 部署 glm-4 ,用 3090 一个下午就把整个中文维基的标题分类完了。那个数量差不多也是几百万条。
注意,一定是用 vllm 部署,这个框架的并发能力强的可怕。部署完就 python 写个脚本,并发写到 500 干他就完了。
»
naclfish2333 创建的更多回复
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
1086 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms ·
UTC 22:32
·
PVG 06:32
·
LAX 14:32
·
JFK 17:32
Developed with
CodeLauncher
♥ Do have faith in what you're doing.