V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
charslee013
V2EX  ›  分享发现

👉🏻 CognitiveKernel-Launchpad: 5 分钟,我搭出了自己的第一个 AI Agent 👈🏻

  •  
  •   charslee013 · 13 小时 51 分钟前 · 237 次点击

    👉🏻 CognitiveKernel-Launchpad:5 分钟,我搭出了自己的第一个 AI Agent 👈🏻

    前几天试了下 OpenAI 的 Deep Research ,有点意思。

    输入一个问题,它自己上网查资料、读 PDF 、对比观点、整理结构,最后给我一份研究报告。我当时就想:这玩意儿比我写论文还认真。

    后来又看到 Manus ,能拆解任务、调用工具、自动执行。我就想:要是我也有个这样的"数字员工"就好了。

    问题是它们都闭源。我只能用,不能改。作为一个 AI Agent 新手,我想自己搭一个,哪怕简单点,至少我能改、我能学、我能折腾

    然后我就开始找开源项目。在 GitHub 上翻到了腾讯的 CognitiveKernel-Pro —— 多步推理、网页搜索、文件解析,看起来挺合适。

    结果一试……直接懵了。

    项目太全了 —— 推理、训练、测试一大堆,依赖复杂,配置文件一堆,光跑个 demo 就搞了一天。我又不需要训练,就想让它能查资料、读文档、写个报告。

    所以我自己改了。

    把训练、SFT 、测试那些东西全砍了,只留核心的推理功能 —— 让 Agent 能想、能搜、能读文件、能出结果。

    这就是 CognitiveKernel-Launchpad —— 给新手用的"AI Agent 启动包"。

    它能干嘛?(也就是我最想要的功能)

    • 多步推理:基于 ReAct 框架,让它"想一步、做一步、再想一步"
    • 自动搜网页:内置搜索引擎,像 Deep Research 一样主动找资料
    • 跑评测不费劲:内置 GAIA 基准,方便我验证它到底有没有变聪明
    • 一键启动 Web UI:Gradio 搞定,本地打开浏览器就能玩,不用写前端

    适合谁?

    就是我这样的你 ——

    • 想亲手搭一个"本地版 Deep Research / Manus"的初学者
    • 不想被训练流程劝退,只想先跑通推理流程的小白
    • 想快速验证 Agent 想法、做 POC 、搞教学演示的开发者/学生
    • 喜欢"改源码 + 看效果"的动手派

    5 分钟,你就能拥有一个会思考、会搜索、会读文件的 AI Agent 。

    🚀 两种体验方式

    方式一:在线演示

    无需本地环境配置,可直接体验完整功能:

    在线版本提供完整的 Agent 推理过程展示和结果输出。

    界面预览:

    Gradio Web 界面演示

    方式二:本地部署

    1. 安装

    git clone https://github.com/charSLee013/CognitiveKernel-Launchpad.git
    cd CognitiveKernel-Launchpad
    python -m venv .venv
    source .venv/bin/activate  # Windows: .venv\Scripts\activate
    pip install -r requirements.txt
    

    2. 安装浏览器(必需)

    python -m playwright install chrome --with-deps
    

    <sub>Web Agent 需要真实浏览器来访问网页和下载文件,这一步不能跳过</sub>

    3. 环境设置(最小配置)

    export OPENAI_API_KEY="sk-..."
    export OPENAI_API_BASE="https://api.openai.com/v1"
    export OPENAI_API_MODEL="gpt-4o-mini"
    

    4. 运行单个问题

    python -m ck_pro "法国的首都是什么?"
    

    ✅ 完成!你的 AI Agent 跑起来了。

    5. 启动 Web 界面

    python -m ck_pro.gradio_app --host 0.0.0.0 --port 7860
    

    → 在浏览器中打开 http://localhost:7860

    来源与致谢:本项目为基于腾讯开源项目 https://github.com/Tencent/CognitiveKernel-Pro 的研究用分支,聚焦"推理时"能力。仅限学术研究与教学使用,禁止商用。

    使用场景示例

    场景一:技术趋势调研

    python -m ck_pro "帮我调研 2024 年大模型的主要发展趋势,包括技术突破和市场动态"
    

    Agent 执行流程:搜索相关资料 → 访问权威网站 → 提取关键信息 → 生成结构化报告。


    场景二:文档资料整理

    python -m ck_pro "帮我收集 AI 发展历史的关键资料,并整理成文章大纲"
    

    Agent 执行流程:搜索相关文献 → 提取重要时间节点和技术突破 → 按逻辑顺序组织内容。

    场景三:技术学习指导

    python -m ck_pro "帮我整理 TensorFlow 的入门教程和最佳实践"
    

    Agent 执行流程:访问官方文档 → 收集社区教程 → 提取核心概念和代码示例。


    场景四:企业信息分析

    python -m ck_pro "详细分析傲基股份有限公司的业务,技术等等"
    

    执行流程

    1. 智能规划阶段

      Agent 自动生成任务计划:
      ✓ 网络搜索收集公司基础信息
      ✓ 识别并下载官方 IPO 文档
      ✓ 分析文档提取关键信息
      
    2. 信息搜集与识别

      发现 6 个相关搜索结果,包括:
      • 傲基(深圳)跨境商务股份有限公司 IPO 文档
      • 香港上市发展概览(确认为科技赋能数据驱动平台)
      • Aukey E-Business 公司信息(合作伙伴:Google 、eBay 、PayPal 、UPS 、DHL )
      
    3. 文档获取与处理

      Web Agent 执行流程:
      Action=goto → Action=save → Save Succeed: ./aoji_ipo.pdf
      
    4. 智能适应与恢复

      遇到文件访问限制时,系统自动切换策略:
      • 检测到文件分析不可用
      • 回退到基于已收集信息的 LLM 分析
      • 生成结构化企业分析报告
      
    5. 最终输出

      生成 5 个维度的企业分析:
      • 商业模式 • 产品线 • 技术基础设施
      • 市场覆盖 • 创新策略
      

    🛠️ 命令行功能

    python -m ck_pro \
      --config config.toml \
      --input questions.txt \
      --output answers.txt \
      --interactive \
      --verbose
    
    参数 描述
    -c, --config TOML 配置文件路径(默认:config.toml )
    -i, --input 批量输入文件(每行一个问题)
    -o, --output 输出答案到文件( JSON 格式)
    --interactive 启动交互式问答会话
    -v, --verbose 显示推理步骤和计时信息
    --max-steps 最大推理步数(覆盖配置文件)
    --timeout 超时时间(秒,覆盖配置文件)

    📊 GAIA 基准评估

    什么是 GAIA ? GAIA ( General AI Assistants )是一个专门评估通用 AI 助手能力的基准测试,由 Meta 、Hugging Face 等机构联合开发。它包含 466 个真实世界的问题,需要 AI 系统具备推理、多模态处理、网页浏览、工具使用等综合能力。

    为什么选择 GAIA ? 与其他基准不同,GAIA 的问题对人类来说概念简单(人类正确率 92%),但对 AI 极具挑战性( GPT-4 + 插件仅 15%)。这正好验证了我们项目的核心价值:构建真正实用的 AI Agent 。

    数据准备: 首先到 GAIA 数据集 下载 metadata.jsonl 文件。

    运行评估:

    python -m gaia.cli.simple_validate \
      --data metadata.jsonl \
      --level all \
      --count 10 \
      --output results.jsonl
    
    参数 描述
    --data GAIA metadata.jsonl 文件路径(必需)
    --level 难度级别过滤( 1/2/3/all ,默认:all )
    --count 最大任务数量( 0=无限制,默认:0 )
    --output 结果输出文件(默认:output/results_时间戳.jsonl )

    → 输出详细的性能摘要和每个任务的结果,帮你了解 Agent 的真实能力水平。


    📚 项目信息

    项目地址: https://github.com/charSLee013/CognitiveKernel-Launchpad

    在线体验:

    感谢: 本项目基于腾讯开源的 CognitiveKernel-Pro 构建,仅限学术研究与教学使用。

    建议从在线演示开始体验,了解 Agent 的基本工作流程,然后根据需要进行本地部署和定制开发。

    2 条回复    2025-09-16 20:59:01 +08:00
    setname
        1
    setname  
       13 小时 40 分钟前
    有点意思
    L5411
        2
    L5411  
       13 小时 24 分钟前
    star 了,学习一下
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5689 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 02:23 · PVG 10:23 · LAX 19:23 · JFK 22:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.