V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
NotAProgrammer
V2EX  ›  问与答

想问一下 agent 能读取链接里面的内容是使用了什么技术?

  •  
  •   NotAProgrammer · 1 天前 · 891 次点击

    比如客户端 豆包 让它总结一个链接,只要是能公开访问的,它都能总结,包括一个 oss pdf 链接,但是如果给一个大模型,它回答就不行?想问一下豆包这样的 agent 是使用了哪个技术

    5 条回复    2025-11-24 11:06:10 +08:00
    g17
        1
    g17  
       1 天前
    用 url 下载 html 内容然后解析呗,不一定是要浏览器才能读到网页的,比如你在终端里执行 curl https://v2ex.com/t/1174590 也能看到你的问题在返回的字符串里
    NotAProgrammer
        2
    NotAProgrammer  
    OP
       1 天前
    @g17 #1 那 pdf 呢?这个操作原理大概知道,能告知具体的技术名称嘛?
    LeegoYih
        3
    LeegoYih  
       1 天前
    你是想要解析网页或者资源的技术,还是通过 LLM 推断能力提取 URL ?
    NotAProgrammer
        4
    NotAProgrammer  
    OP
       1 天前
    @LeegoYih #3 我是想知道一个 的一个代为是怎么实现的。这个是我在豆包里面调用的流程,但是我在 别的客服端 嗲用模型就提示:“抱歉,我无法直接访问您提供的链接或下载、查看该 PDF 文件的内容。您提供的链接指向一个存储在阿里云 OSS 上的 PDF 文件” 同样的一个提示词和同样的大模型
    Memoriae
        5
    Memoriae  
       1 天前
    curl url ( call 内置封装函数),和 RAG 一样,做文本解析、切片分块、语义检索,很多 agent 都有类似的插件,拆解子任务,自动调用函数,提取有效片段。解析 pdf 还要 OCR ,手搓难度很高。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1296 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 17:05 · PVG 01:05 · LAX 09:05 · JFK 12:05
    ♥ Do have faith in what you're doing.