V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
amnaruto
V2EX  ›  程序员

基于 Dify 的知识库搭建和写作工作流 vs 基于 ChatGPT/Claude Project 的写作

  •  
  •   amnaruto · 19 小时 46 分钟前 · 893 次点击

    背景

    想基于一些本专业相关电子书构建知识库,并在大模型辅助下撰写一份近百页篇幅的英文材料,输入资料无保密要求,个人无任何 LM 基础,且编程底子弱、没空折腾
    通过 V2EX 了解到 Dify 等低代码平台似乎满足需求,如
    https://www.v2ex.com/t/1111695

    现状

    看了小一周的视频教程/Reddit 论坛/官方文档,初步摸索了知识库傻瓜式搭建流程和模型选择
    目前,基于 一份 6000 字的英文资料 + 父子分块 + Qwen3 Embeddind & Reranker 4B ,测得召回 score 还可以,试了下问答似乎没啥大问题,但还没有大量喂资料和优化调参(如对比 Jina/Cohere )

    问题

    1. 上面这套能否让 LM 一口气写很长的篇幅?个人感觉即使 Rerank 模型 TopK 调到最大 10 ,命中的片段数量也不足以支撑长篇幅写作,最后还得靠大模型自己补?
    2. 接问题 1 的需求,父子分块下,父块按段落分(最大分段 1024 )似乎 ok ,子块按逐句截断好(~200 最大分段)还是多句截断好(~500 最大分段)?我试了下前者召回 score 更高,但片段过于精确/短似乎不是好事吧?
    3. 最近又调研到①ChatGPT 和②Claude 的 Project 可以直接充当知识库、③Claude+morphik 等 MCP 组合,我看 Reddit 有人分享说 Claude 好点。请问有使用经验的大佬:这 2 个平台和上述 Dify 部署哪个更符合要求?

    水平低,问题傻,请大佬们不吝赐教!感谢!

    1 条回复    2025-09-05 15:29:46 +08:00
    3297269
        1
    3297269  
       8 小时 22 分钟前
    长上下文我觉得 Gemini 2.5 Pro 表现最好,要不先试试上传文档结合 deepResearch ,让它搭个框架?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2357 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 18ms · UTC 15:52 · PVG 23:52 · LAX 08:52 · JFK 11:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.