ccsert 最近的时间轴更新
ccsert

ccsert

V2EX 第 667106 号会员,加入于 2023-12-15 10:20:22 +08:00
ccsert 最近回复了
40 天前
回复了 Need4more 创建的主题 程序员 字节开源了其智能体开发平台 coze
开源版 Coze Studio 的功能限制主要体现在:
核心限制领域:
商业化功能:付费、变现、收益分析
企业级功能:SSO 、高级权限、审核系统
第三方集成:微信、抖音等平台深度集成
高级开发工具:某些调试、分析工具
代码执行环境:安全沙箱和资源限制
文件处理:高级文档解析和 OCR
浏览器兼容性:对特定浏览器版本的依赖
数据分析:用户行为分析、商业智能
仍然可用的核心功能:
✅ AI Agent 创建和配置
✅ 对话和聊天功能
✅ 工作流设计
✅ 基础文件上传和处理
✅ 基本的发布功能
✅ 知识库管理
✅ 插件开发

把代码拉下来跑了跑,让 ai 分析了一些哪些是暂不支持的,感觉已经很不错了,而且原生 apache2.0 协议,甚至底层开发框架后端的 go enio 和前端的 flowgram 也都是开源的

40 天前
回复了 kalman03 创建的主题 问与答 Coze 开源对智能体构建的影响有多大?
体验还挺不错,而且开发环境初始化及其友好,提供了中间件的 compose ,也提供了初始化的 compose ,并且提供了 make 脚本,直接 make serve 自动帮你配置开发环境,并且自动安装依赖。

并且体验了一下功能也算齐全,知识库,数据库和工作流,外部插件(不支持云函数基于 openapi )都具备。

支持应用和智能体

没有 saas 版本的模型管理,模型管理基于配置文件来配置,。

代码节点和 saas 版本有差异,自由 python 没有 js (可能是我环境问题?)。

工作流节点缺少会话相关节点。

对应的后端 eino 框架和前端 FlowGram 也都开源了

[上传图片中...]

dify 商用是不能修改 logo 的,coze 是原生的 apache2.0 协议可以改 logo 。

还有一个 cozeloop (目前还没尝试)。




@5gmobiler 个人认为 asr 声纹识别的准确度还是不太够,没有做过这类,而且声纹注册这个步骤太繁琐复杂了,样本也很难管理和采集,`在录制的时候确认说话人` 这句话指的是可以在程序侧解决问题,例如有专门录制的程序可以大家在通过视频会议时就能明确是谁发出的声音
@slight #5 可以调用 dify 知识库接口然后做一些触发器实现新增知识的关联
可以看看 bean-searcher 这个框架,专门做复杂查询的 https://gitee.com/troyzhxu/bean-searcher
@ccsert 这里虽然是行业规范文档,但是实际 ai 处理时候并不一定认为是规范的,在 embedding 过程中可能还是会出现拟合的情况,所以有时候清洗后二次提纯是很有必要的
1. 行业规范文档处理
预处理脚本: 需要对文档进行预处理,包括去除无关信息、格式化文本、提取关键内容等。可以使用 Python 脚本结合正则表达式、BeautifulSoup 等工具进行处理。

文档清洗: 文档中可能包含图片、表格等复杂内容,这些内容可以通过 OCR 提取文本,或者通过专门的文档解析工具(如 Apache Tika )进行处理,现在有一些多模态的大模型对图片也有一定的理解,可以考虑尝试。

AI 二次提纯: 使用一些开源大语言模型将对提取的文本进行进一步处理,去除噪声、提取关键信息,这里实际提示词工程就已经可以做的比较优秀了。

知识库构建: 目前实际没有特别好的,但是因为上述的操作对文档已经做了清洗和提纯,到这一步实际使用一些 embedding 模型和开源向量库即可了,后续做知识库问答的时候可以使用一些简单的 rag 平台,例如 dify 这些以外部 api 的方式对接,这里个人觉得 dify 的知识库效果实际比较一般,当然也可以将处理好的文本内容通过 dify 的知识库 api 调用生成也不错。

2. 会议录音处理
说话人识别: 可以使用开源工具如 Kaldi 、pyannote.audio 等进行说话人识别。如果能在源头解决实际会更好一些,比如在会议录制的时候就确定说话人。

会议纪要生成: 这一步实际比较简单结合现有开源大模型提示词工程生成会议纪要。如果想做的更细致一些,可以在处理音频或视频数据的时候打时间轴标签。

时间轴跳转: 可以在生成的会议纪要中加入时间戳,方便用户快速跳转到特定时间点的内容。

3. 私有化部署
语言大模型选择: 目前开源的大模型效果已经很不错了,如果资金充裕,deepseek 私有化部署一整套包括预训练环境好像就是 50w 左右
整个过程实际工程量非常庞大,涉及的领域也比较庞杂,就算上述的基本要素已经具备,也还涉及大量的开发,文本解析,数据处理,提纯,甚至多智能体协同,函数调用都需要整合起来使用才能达到目标需求
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2844 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 03:08 · PVG 11:08 · LAX 20:08 · JFK 23:08
Developed with CodeLauncher
♥ Do have faith in what you're doing.