LLMs 文本标签（分类）任务怎么做比较好？ - V2EX

Home Sign Up Sign In

This topic created in 528 days ago, the information mentioned may be changed or developed.

现在大概有三组共 100 多个标签，用来对多段文本进行分类，是应该设置三个 prompt 分三次进行生成，还是用一个长 prompt ？

另外现在通用型 LLMs 好像对标签工作都不太完美，经常出现标出其他不在字典的标签，或是标签过多之后分类效果不佳。

有没有朋友在做相关工作有经验的，可以分享下方法嘛

5 replies • 2025-01-06 20:42:36 +08:00

1

mumbler

Jan 6, 2025

1

标签分类是大模型的老本行，你只要把标签整理好，让它在标签库里选择，正确率比人高

模型用 gemini-exp-1206 ，目前最强大的模型，200 万 token 上下文，一次完成不会有问题

2

june4

Jan 6, 2025

让模型随便自由标，比如标出 1000 个不在字典的标签，然后你把这些多出来的标签设置一个映射到你的 100 个标签，这个映射是一次性的，可以手工完成或 ai 也行。

3

CNYoki

OP

Jan 6, 2025

@mumbler #1 我现在用的是 Qwen2.5 110B ，文本太多用商用收费模型成本太高了。现在 Prompt 用列表给出了所有标签，但发现效果不是太好（比如说不在给定字典里的标签）。您说的标签整理好，是有什么格式会好一些？

4

CNYoki

OP

Jan 6, 2025

@june4 #2 最开始也是用的这个方法，但是现在数据量太大了（上百万段文本），发现不在标签字典的结果就太多了

5

mumbler

Jan 6, 2025

@CNYoki #3 格式当然 json 最好，模型用 gemini-exp-1206 ，完全免费的，200 万上下文，比 gpt4o 还强，所有数据一次处理，用什么 qwen 啊

About · Help · Advertise · Blog · API · FAQ · Solana · 2633 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 28ms · UTC 08:13 · PVG 16:13 · LAX 01:13 · JFK 04:13
♥ Do have faith in what you're doing.