Dify搭建多模态智能体
Dify
Dify 是一个开源的大语言模型(LLM)应用开发平台,融合了后端即服务(BaaS) 和 LLMOps 理念,为从原型设计到生产部署提供全流程支持。它采用分层模块化架构,分为数据层、开发层、编排层和基础层,各层解耦便于扩展。
Dify 对模型高度中立且兼容性强:无论开源或商业模型,用户都可通过简单配置将其接入,并通过统一接口调用其推理能力。其内置支持对数百种开源或专有 LLM 的集成,涵盖 GPT、Deepseek、Llama等模型,以及任何兼容 OpenAI API 的模型。

同时,Dify 支持本地部署(官方提供 Docker Compose 一键启动)和云端部署。用户可以选择将 Dify 自建部署在本地/私有环境(保障数据隐私),也可以使用官方 SaaS 云服务(下述商业模式部分详述)。这种部署灵活性使其适用于对安全性有要求的企业内网环境或对运维便利性有要求的开发者群体。

Marketplace 包含:
- 模型 (Models)
- 工具 (Tools)
- 智能体策略 (Agent Strategies)
- 扩展 (Extensions)
- 捆绑包 (Bundles)
目前,Dify Marketplace 已拥有超过 8677 个插件,涵盖各种功能和应用场景。其中,官方推荐的插件包括:
- Google Search: langgenius/google
- Azure OpenAI: langgenius/azure_openai
- Notion: langgenius/notion
- DuckDuckGo: langgenius/duckduckgo
Dify 为插件开发者提供了强大的开发支持,包括远程调试功能,可与流行的 IDE 无缝协作,只需最少的环境设置。开发者可以连接到 Dify 的 SaaS 服务,同时将所有插件操作转发到本地环境进行测试,这种开发者友好的方法旨在赋能插件创建者并加速 Dify 生态系统的创新。这也为什么Dify可以成目前最成功的智能体平台之一,因为模型是都可以接入的,提示词、编排是可以复制的,但是工具插件的有无,是否丰富就直接决定了你的智能体能否做出更好的效果或者意想不到的强大功能。
构建一个超级智能体个人助手
1、安装插件

2、配置MCP

3、Agent设计与效果展示
本案例将创建一个全方位的私人助手,涵盖以下功能模块:
- 日常生活问答
- 文案润色优化
- 多模态内容生成(图片、视频)
- MCP 工具集成(高德地图、饮食推荐、新闻资讯)
- 数据查询与可视化分析
整个智能体的编排架构如图:

下面介绍如何搭建这样一个智能体的Chatflow:
(1)创建Chatflow空白应用

(2)创建问题分类器
- 先创建一个问题分类器用于对输入问题进行分类

(3)日常助手模块实现
这是一个基础的对话模块,配置大语言模型和时间工具,作为兜底的通用问答服务。
LLM节点的system_prompt如下:
1 | |

(4)文案优化模块实现
根据 OpenAI 的数据报告,超过60%的用户使用 ChatGPT 进行文本优化相关任务,包括润色、修改、扩写、缩写等。因此,文案优化是高频需求场景,我们将其作为第二个核心功能模块。

(5)多模态生成模块(图片,视频)
图片和视频生成是另一个高频应用场景。随着豆包生图、Google Imagen 等模型的进化,以及可灵、Google Veo 3、OpenAI Sora 2 等视频生成技术的突破,多模态内容生成的质量已达到实用水平。
图片生成配置:
- 本案例使用豆包插件实现图片和视频生成
- 关于豆包插件的图片、视频生成权限及api_key获取,请参考这篇blog,讲解的极其清晰,建议直接看blog中的第3、4部分:

视频生成配置:
- 视频生成与图片生成同理,火山引擎中开通文生视频权限即可
(6)MCP 工具集成(高德地图、饮食推荐、新闻资讯)
在前面我们已经完成了 MCP 的配置,现在将其集成到智能体中。
配置步骤:
- 选择支持 MCP 调用的Agent节点
- 选择 ReAct 模式
- 添加”获取时间戳”工具
- 配置 MCP 服务(选择 SSE 模式,删除 mcp-server 前缀后把其他信息复制过来)
- 填写相应的提示词

(7)数据查询与分析模块
数据查询与分析模块
数据处理是智能体的重要能力之一。本模块演示如何在 Dify 中连接数据库,实现数据查询和可视化分析。

Dify 的优势与局限性分析
Dify 作为一款领先的 AI 应用开发平台,在多个方面展现出显著优势:
- 核心优势
- 全栈式开发体验:Dify 将 RAG 管道、AI 工作流、模型管理等功能整合到一个平台中,提供一站式的开发体验
- 低代码与高扩展性的平衡:Dify 在低代码开发的便利性和专业开发的灵活性之间取得了良好平衡
- 企业级安全与合规:Dify 提供 AES-256 加密、RBAC 权限控制和审计日志等功能,满足严格的安全和合规要求
- 丰富的工具集成能力:Dify 支持 9000 + 工具和 API 扩展,提供了广泛的功能扩展性
- 活跃的开源社区:Dify 拥有活跃的开源社区,提供了丰富的学习资源和支持
- 主要局限
- 学习曲线较陡:对于完全没有技术背景的用户,仍然存在一定的学习曲线
- 性能瓶颈:在高并发场景下可能面临性能挑战,需要进行适当的优化。Dify 系统的核心服务端组件由 Python 语言实现,与 C++、Golang、Rust 等语言相比,性能表现相对较差
- 多模态支持不足:当前主要以文本处理为主,对图像、视频、HTML等的支持有限
- 企业版成本较高:Dify 的企业版定价相对较高,可能超出小型团队的预算
- API 兼容性问题:Dify 的 API 格式不兼容 OpenAI,可能限制与某些第三方系统的集成
习题
在5.2节的
Coze案例中,我们构建了一个”每日AI简报”智能体。请基于此案例进行扩展思考:提示:这是一道动手实践题,建议实际操作
- 当前的简报生成是被动触发的(用户主动询问)。如何改造这个智能体,使其能够每天早上8点自动生成简报并推送到指定的飞书群或微信公众号?
- 简报的质量高度依赖于提示词设计。请尝试优化5.2.2节中的提示词,使生成的简报更加专业、结构更清晰,或者增加”热点分析”、”趋势预测”等新功能。
Coze当前不支持MCP协议被认为是一个重要局限(在习题的写作过程中,feature-mcp虽然在Coze Studio Q4 2025 Product Roadmap中了,但是还尚未实现)。请简述,什么是MCP协议?它为什么重要?如果Coze未来支持MCP,会带来哪些新的可能性?
• 在5.3.2节中,我们使用了 MCP 协议集成了高德地图、饮食推荐等服务。请调研并说明:MCP 协议与传统的 RESTful API 以及 Tool Calling 有哪些区别?为什么说 MCP 是智能体工具调用的”新标准”?
假设你要为 Dify 开发一个自定义插件,使其能够调用你公司的内部知识库系统。请查阅 Dify 的插件开发文档,概述开发流程和关键技术点。