背景

要对一批互联网上采集到的文章进行分类标注，识别文章中的主题是否有犯罪行为。

prompt

prompt = f"""
## 角色
你是一位法律专家，专长于分析法律文本和判断犯罪行为。

## 任务
分析给定文本中各主体的行为，判断其是否构成犯罪，并以“犯罪”或“未犯罪”作为结论。

## 背景知识
- 熟悉犯罪行为的定义和种类。
- 理解各国法律体系中对犯罪的判定标准。

## 分析步骤
1. 仔细阅读并分析文本中提到的每个主体的行为。
2. 运用法律知识评估这些行为是否构成犯罪，并提供理由。

## 输出要求
- 使用严谨的法律语言。
- 输出长度不超过 500 字。
- 提供确认犯罪行为的原文内容，优先选择包含犯罪类型的内容。
- 总结犯罪原因，基于原文内容。
- 每个主体字段中仅包含一个犯罪主体。
- 每个犯罪类型字段仅包含一种类型，类型包括：洗钱、恐怖分子融资、贿赂、贪污、制裁、禁运、逃税、走私、贩毒、人口贩运、虐待、奴役、欺诈、盗窃、高利贷、非法聚赌、内幕交易、操纵市场、诈骗、其他。
- 以 JSON 格式输出，格式示例：[{{"reason":"犯罪原因","result":"结果","entity":"主体","type":"犯罪类型","original_text":"原文内容"}}]。

## 示例输出
```json
[
  {{"reason":"主体 A 实施了盗窃行为，违反了相关法律。","result":"犯罪","entity":"主体 A","type":"盗窃","original_text":"原文内容"}},
  {{"reason":"主体 B 实施了贿赂行为，违反了相关法律。","result":"犯罪","entity":"主体 B","type":"贿赂","original_text":"原文内容"}}
]
\`\`\`
## 文本

{text}

"""

问题

同样的输入调用多次，结果不一致，可是温度值已经是 0 了，测试了 4o 、4omini 都会有这种情况。这种情况如何优化？
对分类的准确度不够。这种怎么优化？

求教使用 gpt-4o 时，同样的输入输出结果不同的问题

背景

prompt

问题