V2EX › neteroster 的所有回复 › 第 1 页 / 共 36 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 36

❮

❯

9 天前

回复了 smalltong02 创建的主题 › 程序员 › 对 Qwen 2 模型代理能力的完整测试

很好的测试。Qwen2 确实是非常优秀的一组模型，特别是多语言能力方面的改进可圈可点。阿里选择将模型（除 72B ）以 Apache2.0 开源也是非常慷慨。期待未来更强的模型。

16 天前

回复了 TyCoding 创建的主题 › 机器学习 › 同问，如何限制 LLM 响应结构

@neteroster 对了，在线 API 还有一点忘记提了，就是做 few-shot 。如果你的任务文本不太长，可以先用前面的对话给 LLM 一些例子

16 天前

回复了 TyCoding 创建的主题 › 机器学习 › 同问，如何限制 LLM 响应结构

其实如果用开源模型的话有很多方法可以做到。

例如说 llama.cpp 就可以用 grammar ，这是直接从采样器上面做限制的，效果会很好。除此之位还有一众更强大的推理约束工具，例如 guidance ( https://github.com/guidance-ai/guidance ), outline ( https://github.com/outlines-dev/outlines ), sglang ( https://github.com/sgl-project/sglang )，它们不止可以限制 json 输出，甚至可以限制输出满足特定的正则表达式 / 形式文法。

对于在线模型，如果不是复杂的结构，有一些办法，比如 Anthropic 的 API 支持先填充 LLM 响应的前面一部分，对于你这个例子来说，你可以指定前面部分就是 "["，这样模型就会立即开始输出，然后 stop 序列设置成 "]"，就会在输出到 "]" 立即截断并返回。

20 天前

回复了 hxm0070 创建的主题 › 问与答 › 国内这些开源大模型，哪个效果更好一些？

@googlefans 那都不是一个系列的，Qwen 开源模型系列目前最新版本是 Qwen1.5 ( https://huggingface.co/Qwen )，下一个版本是 2 。

所谓通义千问 2.5 指的实际上是 Dashscope 上型号为 "qwen-max" 的闭源模型，后者目前指向 "qwen-max-0428"（ Chatbot Arena 榜上有名），而 Qwen2 开源系列将很可能超过该模型（ ref: 官方 discord ）

20 天前

回复了 hxm0070 创建的主题 › 问与答 › 国内这些开源大模型，哪个效果更好一些？

等 Qwen2 ，这两周会出，不出意外的话应该会很强（推上几位相关负责人都很自信）

30 天前

回复了 Tuatara 创建的主题 › NVIDIA › 现在买 3090TI 玩 AI 靠谱吗

@wsbqdyhm 这个 https://github.com/RVC-Boss/GPT-SoVITS

如果不会用的话 B 站搜搜教程，现在应该听多了。

31 天前

回复了 Tuatara 创建的主题 › NVIDIA › 现在买 3090TI 玩 AI 靠谱吗

@muxiaofei

中文微调推荐 Qwen 系列，llama3 预训练估计没多少中文语料。

微调分不同类型，全量，LoRA ，QLoRA 等，最近也有一些新兴技术。例如，llama3 8b 用 LoRA 基本 24G 能满足，但是全量微调这个大小则是天方夜谭。部分任务下 LoRA 等技术和全量微调效果接近甚至更好，但是也有很多任务是不及全量微调的，需要实际测试。

租算力完全可行。

另外，知识库不推荐微调，先试试 RAG 。

32 天前

回复了 Tuatara 创建的主题 › NVIDIA › 现在买 3090TI 玩 AI 靠谱吗

@neteroster 再补充几句，70B 还没到 Mac 的适应区间，2 * 3090 就能拉爆 M3 Max 了，还是在便宜的多的情况下。拉高 batch size 差距应该会更加显著。

再大的模型？那就要想清楚你是不是真的需要那么大的模型了，现在大部分模型都集中在 <100B 区间，就算 >100B 的模型 Mac 也跑不快的。唯一有优势的可能是 MoE ，不过现阶段并不多，可能战未来吧。

32 天前

回复了 Tuatara 创建的主题 › NVIDIA › 现在买 3090TI 玩 AI 靠谱吗

真要考虑 Apple Silicon 跑 LLM 的话先看看这个：

https://github.com/ggerganov/llama.cpp/discussions/4167

不是所有 M 芯片都是那么快的。等级森严在苹果这里也是不会变的。

除非你非跑超大模型不可，否则就性能而言 M 芯片的性价比是不如 NVIDIA 的。总之就是先想清楚需求。

然后就是如果涉猎比较广泛，不止玩 LLM ，当然还是 NVIDIA ，毕竟生态再这里。

48 天前

回复了 LeeReamond 创建的主题 › 程序员 › 现在装机有没有什么合适的显卡可以买？

4060Ti 16G ，但是最近涨的貌似有点多，胜在显存大些，要跑比较大的模型的话可能有用，单看性能其实性价比不高。

如果模型不需要那么大显存就 4070(s) 吧，跑模型速度会快点，游戏也能开高点画质。能接受二手的话，也可以考虑，毕竟 40 系没有经过矿潮洗礼，挑个一线带个人送保的牌子就行。

如果愿意折腾的话也可以看看 P100 / P40

54 天前

回复了 ebushicao 创建的主题 › Windows › 2024 的如今 AMD CPU 在 windows11 系统的兼容性咋样了？

5800U 从 Win11 发布用到现在，没遇到过这些问题。

57 天前

回复了 lstz 创建的主题 › OpenAI › 用贵的国产大模型 API 是否效果堪比 GPT4？

客观来看，国内目前还没有大模型能和 GPT4 Turbo 能力上对位。

不过 OpenAI 现在也就 4Turbo 能拿得出手了，3.5-turbo-0125 烂成什么样子就不多说了，属于是 Chatbot Arena 上要翻好几下才能看到的水平。价格也并不能算得上低。

60 天前

回复了 BeyondReach 创建的主题 › OpenAI › 哪家的 AI 可以处理 29247 个字符，相当于 26,650 个 Tokens 的文本输入？有免费的么？

Claude3 全系列 200K 上下文，GPT4 Turbo 128K 上下文。绰绰有余。

开源模型这边，Qwen1.5 词表有中文词汇，如果是中文的话 Tokens 量会比汉字数量少不少，32K 完全足够。但上下文较长时效果可能下降。

72 天前

回复了 flowerains 创建的主题 › 程序员 › 如果只是纯写代码，国内哪家的 AI 大模型最推荐？

Deepseek Coder 6.7B / 33B

https://chat.deepseek.com/coder 这里可以体验，上面是 33B 的版本，但是 6.7B 也很不错。

78 天前

回复了 dunhanson 创建的主题 › 问与答 › PaddleOCR 官方教程没一个可以跑通

是有点问题，降级到 2.5.2 可解，前段时间也遇到了。用 GPU 就没这事。

85 天前

回复了 shuiguomayi 创建的主题 › 问与答 › 有什么好的开源项目可以让 AI 模仿我的声音说话?

GPT-SoVITS

86 天前

回复了 Allen626 创建的主题 › 优惠信息 › 低价稳定 GPT4 最低九毛一美元额度，官方 API 中转，支持函数调用和高并发

@laminux29 你拿官网 API 自己试一下就知道了。ChatGPT 和 OpenAI 的 API 不是一个产品，前者加入了额外的系统提示词，甚至可能有更多的介入。

95 天前

回复了 gongxuanzhang 创建的主题 › 程序员 › 求推荐一个 AI 画图的软件，付费也可以

#2 的 Mermaid 再加上 AI 这不就来了。

现在很多语言模型前端都支持 Mermaid 语法渲染了，只需对模型说：用 Mermaid 语法画一个 ... 图。就行了。

96 天前

回复了 neteroster 创建的主题 › OpenAI › Claude 3 Haiku 已经可用

这里有一个免费的测试链接（不过没法发图）： https://labs.perplexity.ai/
右下角改为 claude-3-haiku 即可。

1 2 3 4 5 6 7 8 9 10 ... 36

❮

❯