20241230 - vLLM + Qwen2.5-Coder-32B-Instruct 驱动的新的标签系统

20 天前
 Livid
V2EX 除了节点之外,也会根据主题内容生成 3 个 tag 。

之前这个系统用的是 Boson NLP 提供的服务,不过他们后来停止了这个 API 服务。

然后这件事情就搁置了一段时间。

最近用 vLLM 部署了 Qwen2.5-Coder-32B-Instruct ,然后尝试用 prompt 的方式来为主题生成标签。虽然某些时候会产生无限循环,但是大部分情况下效果很不错。

目前大概 2 - 3 秒可以分析完一个主题并生成 3 个 tag 。
2617 次点击
所在节点    V2EX 站点状态
13 条回复
Tubbs
20 天前
vLLM 部署确实很方便,用的什么设备部署的呢?
yangyaofei
20 天前
可以用 guided 参数让模型输出固定格式的内容 https://docs.vllm.ai/en/latest/usage/structured_outputs.html, 在加上两部输出(先输出标签格式随意, 输出内容用 LLM 再格式化为 json), 可以获得很好的效果, 当然 prompt 和模型够强够好一部也没问题.

还有, 我好奇为啥用 coder
Donaldo
20 天前
同一张卡,同一个 CUDA 版本,vllm 我实测比 ollama 快几个 token/s 。
Livid
20 天前
@yangyaofei 也试过 Llama 和 QwQ-32B-Preview

Llama 会在输入是中文内容的情况,依然给出英文结果。

QwQ 的输出结果大部分情况下太自由发挥了。

Qwen2.5-Coder 的结果是最稳定的。

Google 的 Gemini 2.0 效果也很好,但是免费额度和频率限制不太够用。
Livid
20 天前
另外一个考虑就是因为这里大部分的内容,估计和 Coder 的训练内容也是重合的。
Livid
20 天前
有时候甚至会生成一些原文中没有出现的词,但似乎也不完全是坏事,比如这个主题:

https://www.v2ex.com/t/1101285

“比较”这个词没有在原文里出现。
scys
20 天前
其实也有不准的地方,好想这个帖子:

https://www.v2ex.com/t/1101303#reply29
scys
20 天前
好想 => 好像,感觉 Prompt 可以提供例子,可能会更加准确。我现在用的 Flux Prompt 构建器,提供例子会更加准确。仅作参考,不是 Prompt 达人。
Livid
20 天前
@scys 是的。而且每次生成的结果是不一样的。

我试试让那个帖子重新生成一次。
musi
20 天前
除了标签之外 v2 有考虑使用 embedding 做语义化搜索帖子的功能吗
yangyaofei
20 天前
@Livid #4 哦, qwq llama 肯定是不行的, 前者是尽量 CoT 会输出很多中间过程, llama 个代都对中文支持很不好, 我想说的是比如 qwen2.5-instruct 这种非 coder 模型. 如果显存够的话, 65B 的 4bit 量化模型性能很不错的

生成原文没有的词挺正常的, 毕竟生成模型, 而且也不一定影响结果的正确, 想避免的话可以 prompt 加入用原文的词的设定, 想进一步控制的话, 可能性能就下降很多了(比如前面的 Guided 方式也可以实现)
Livid
17 天前
@musi 今天刚刚把 faiss 的 demo 跑通,这个东西太有意思了,可以做的不只是搜索,相关性推荐看起来也可以。

如果用 384 的 dimension 参数,貌似要把 V 站目前的 110 万个主题给索引,差不多可能需要至少 1.5G 的显存?
musi
17 天前
@Livid 赞,希望在不久的将来能在 v2 上看到这些功能。不过推荐的话不知道有没有用户反感推荐算法的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1101310

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX