【完结12章】AI Agent智能应用从0到1定制开发

AI Agent（人工智能体）是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能，AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。

AI Agent 和大模型的区别在于，大模型与人类之间的交互是基于prompt 实现的，用户prompt 是否清晰明确会影响大模型回答的效果。而AI Agent的工作仅需给定一个目标，它就能够针对目标独立思考并做出行动。 [1] 从原理上说，AI Agent的核心驱动力是大模型，在此基础上增加规划（Planning）、记忆（Memory）和工具使用（Tool Use）三个关键组件。

AI Agent 主要分为4个部分：

感知（Perception）这是流程的第一步。AI 通过传感器、摄像头、麦克风等硬件，初步建立起对外部世界的感知。输入（Inputs）：感知到的信息被输入到系统中。以上面的例子来说，“我有点不舒服”，这句话就被收音模块收集，并输入到系统中。外部环境（Environment）：系统所在的环境或上下文。比如“我有点不舒服”这件事，会涉及到天气、环境等。
信息处理（Brain）可以理解成通用大模型+N多个专业的知识库，用来处理信息。包含以下系统： 1）信息存储相关记忆系统：包括Storage和Memory，用来存储长期和短期的数据。比如长期数据是我这个人的基本信息、基础疾病等；短期数据比如我家的布洛芬没有了。知识库（Knowledge）：包括医学知识库等，可以根据我的症状诊断我当前的状态，以及后续治疗。 2）大模型对信息进行处理基于感知的信息（input + Environment）、记忆、知识库等信息，进行加工处理，得出结论（Decision Making）：“我阳了”。 3）然后制定下一步计划（Planning）。 Action/Reasoning 是基于其决策的具体动作，但还没有实行。要帮我写好请假条、帮我买药等。
执行（Action）基于 Barin 一系列眼花缭乱的操作，得出了结论，制定了下一步计划，那就需要执行（Action）。但是大模型本身是不能完成这些任务，这时候就会用调用第三方的工具（Tools 和Calling API），通过接口或者应用，与其他App进行互动，从而达到最终效果。
输出（output）执行之后，会告诉你执行结果。比如小爱同学告诉你：“你阳了，已经帮你写好请假条，买好药了。”

总的来说，这个系统描述的是一个简化的模型，展示了是一个 AI Agent 如何从感知信息开始，经过一系列内部处理和决策，最终做出响应的过程。 QQ截图20240426112530.png

【完结12章】AI Agent智能应用从0到1定制开发

用户登录

今日阅读排行

一周阅读排行

关注我