介绍如何构建LLM智能体系统
关于智能体(Agents)
通常,大型语言模型(LLM)通常通过RAG(Retrieval-Augmented Generation)架构来增强其存储器能力。然而,LLM智能体(LLM Agents)不仅能增强存储器,还将推理、工具、答案和操作都集成到了其系统中。
LLMS是一种人工智能技术,可以生成类似人类语言的文本,而LLM智能体则是一种扩展了LLMS的系统,它可以执行更复杂的任务,例如搜索信息、使用工具和执行操作。
本文给大家介绍如何从头开始构建LLM智能体系统。
写了一本《大模型实战宝典》,喜欢欢迎订阅
技术交流
前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
我们建了大模型技术交流群, 想要进交流群、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2040。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。
方式①、微信搜索公众号:机器学习社区,后台回复:技术交流
方式②、添加微信号:mlc2040,备注:技术交流+CSDN
步骤1:规划
简单的“输入-输出”LLM使用方式与思维链、具有自洽性的思维链、思维树等技术之间的视觉差异。
LLM的性能得到不断的改进,有许多技术和方法用来提升。我们探讨以下技术:
-
思维链(Chain of Thought):这是一种逐步思考的技术,模型被要求按步骤进行推理,从而实现自我纠正。这种方法有助于改善模型的输出质量。
-
具有自洽性的思维链(Chain of Thought with Self-Consistency):这是对思维链的进一步发展,强调了模型在思考过程中保持一致性的重要性。模型在不同步骤之间保持一致,以提高输出的准确性。
-
思维树(Tree of Thoughts):这是一种更广义的方法,其中多个思维被创建、重新评估并合并,以生成最终的输出。这种方法允许模型在不同路径上探索多个可能性,从而更全面地理解输入并生成更好的回复。
这些技术的应用有助于改善大型语言模型在各种自然语言处理任务上的性能,使其更加强大和灵活。
本文大量使用了Langsmith平台,该平台用于生产化LLM应用程序。例如,在构建思维树提示时,将子提示保存在提示存储库中,然后进行加载:
from langchain import hub
from langchain.chains import SequentialChain
cot_step1 = hub.pull("rachnogstyle/nlw_jan24_cot_step1")
cot_step2 = hub.pull("rachnogstyle/nlw_jan24_cot_step2")
cot_step3 = hub.pull("rachnogstyle/nlw_jan24_cot_step3")
cot_step4 = hub.pull("rachnogstyle/nlw_jan24_cot_step4")
model = "gpt-3.5-turbo"
chain1 = LLMChain(
llm=ChatOpenAI(temperature=0, model=model),
prompt=cot_step1,
output_key="solutions"
)
chain2 = LLMChain(
llm=ChatOpenAI(temperature=0, model=model),
prompt=cot_step2,
output_key="review"
)
chain3 = LLMChain(
llm=ChatOpenAI(temperature=0, model=model),
prompt=cot_step3,
output_key="deepen_thought_process"
)
chain4 = LLMChain(
llm=ChatOpenAI(temperature=0, model=model),
prompt=cot_step4,
output_key="ranked_solutions"
)
overall_chain = SequentialChain(
chains=[chain1, chain2, chain3, chain4],
input_variables=["input", "perfect_factors"],
output_variables=["ranked_solutions"],
verbose=True
)
在这里想说明的是在像Langsmith这样的LLMOps系统中定义推理步骤和版本化它们的正确过程。此外,还可以在公共存储库查看其他流行推理技术的示例,如ReAct或带搜索功能的 Self-ask:
prompt = hub.pull("hwchase17/react")
prompt = hub.pull("hwchase17/self-ask-with-search")
其他值得注意的方法包括:
-
反思(Reflexion):用于使Agents具有动态内存和自我反思能力,以提高推理技能。
-
回顾链(Chain of Hindsight):鼓励模型查看过去的输出序列,以改善自身输出,从而更好地满足用户需求。
第2步:内存
我们可以将大脑中不同类型的记忆映射到LLM架构的各个组成部分上
-
感官记忆:这个记忆组件捕捉了直接的感官输入,如我们所看到的、听到的或感觉到的。在提示工程和人工智能模型中,提示是一种短暂的输入,类似于瞬时触感,用于触发模型进行处理。它是初始的刺激,引导模型生成相应的输出。
-
短期记忆:短期记忆暂时保存信息,通常与正在进行的任务或对话相关。在提示工程中,这相当于保留最近的聊天历史记录。这种记忆使Agents能够在互动过程中保持上下文和一致性,确保响应与当前对话相匹配。在代码中,通常将其添加为对话历史记录:
from langchain_community.chat_message_histories import ChatMessageHistory
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain.agents import AgentExecutor
from langchain.agents import create_openai_functions_agent
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
tools = [retriever_tool]
agent = create_openai_functions_agent(
llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
message_history = ChatMessageHistory()
agent_with_chat_history = RunnableWithMessageHistory(
agent_executor,
lambda session_id: message_history,
input_messages_key="input",
history_messages_key="chat_history",
)
- 长期记忆:长期记忆存储事实性知识和程序性指示。在人工智能模型中,这表现为用于训练和微调的数据。此外,长期记忆还支持RAG框架的操作,使Agents能够访问并将已学信息合并到其响应中。就像是Agents提供有关和相关输出的全面知识存储库一样。在代码中,通常将其添加为向量化数据库:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
loader = WebBaseLoader("https://neurons-lab.com/")
docs = loader.load()
documents = RecursiveCharacterTextSplitter(
chunk_size=1000, chunk_overlap=200
).split_documents(docs)
vector = FAISS.from_documents(documents, OpenAIEmbeddings())
retriever = vector.as_retriever()
步骤3:工具
在实际操作中,希望通过单独的推理链来增强Agents(可以是另一种 LLM,即特定领域或另一种用于图像分类的 ML 模型),或者使用基于规则或API的方法来增强Agents。
ChatGPT Plugins 和 OpenAI API 函数调用就是利用工具使用能力增强 LLM 在实践中发挥作用的良好范例。
- 内置Langchain工具:Langchain内置了一系列工具,从互联网搜索和Arxiv工具包到Zapier和雅虎财经。本文使用Tavily提供的互联网搜索:
from langchain.utilities.tavily_search import TavilySearchAPIWrapper
from langchain.tools.tavily_search import TavilySearchResults
search = TavilySearchAPIWrapper()
tavily_tool = TavilySearchResults(api_wrapper=search)
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.0)
agent_chain = initialize_agent(
[retriever_tool, tavily_tool],
llm,
agent=AgentType.STRUCTURED_CHAT_ZERO_SHOT_REACT_DESCRIPTION,
verbose=True,
)
- 自定义工具:定义自己的工具也非常简单。以计算字符串长度的工具为例进行分析。需要使用@tooldecorator让Langchain知道这个工具。然后,不要忘记输入和输出的类型。但最重要的部分是函数注释之间的
""" """
——这就是Agents如何知道这个工具是做什么的,并将此描述与其他工具的描述进行比较:
from langchain.pydantic_v1 import BaseModel, Field
from langchain.tools import BaseTool, StructuredTool, tool
@tool
def calculate_length_tool(a: str) -> int:
"""The function calculates the length of the input string."""
return len(a)
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.0)
agent_chain = initialize_agent(
[retriever_tool, tavily_tool, calculate_length_tool],
llm,
agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
verbose=True,
)
你可能会看到一个错误——它没有正确提取Neurons Lab公司的描述,尽管调用了正确的自定义长度计算函数,最终结果却是错误的。可以试着进行修复。
步骤4:整合在一起
可以将所有架构部件组合在一起成为简洁版本。注意,可以很容易地分解并单独定义:
-
所有类型的工具(搜索、自定义工具等)
-
所有类型的记忆(感知作为提示,短期作为可运行消息历史记录,并在提示中作为素描板,以及长期作为从向量数据库检索)
-
任何类型的规划策略(作为从LLMOps系统拉取的提示的一部分)
最终的Agents定义会像这样简单:
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
agent = create_openai_functions_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
agent_with_chat_history = RunnableWithMessageHistory(
agent_executor,
lambda session_id: message_history,
input_messages_key="input",
history_messages_key="chat_history",
)
我们定义了一个完整的架构,其中短期记忆起着至关重要的作用。Agents获得了消息历史记录和一个作为推理结构的素描板,使其能够拉取正确的网站描述并计算其长度。
结束语
希望本文关于LLM Agents架构的核心元素的讲解对读者有所帮助。这里再次强调LLM Agents中所有元素的重要性。比如缺少短期记忆或者工具的描述不完整会影响LLM Agents的推理并提供错误的答案,即使是对于简单任务也是如此。
用通俗易懂的方式讲解系列
- 用通俗易懂的方式讲解:不用再找了,这是大模型最全的面试题库
- 用通俗易懂的方式讲解:这是我见过的最适合大模型小白的 PyTorch 中文课程
- 用通俗易懂的方式讲解:一文讲透最热的大模型开发框架 LangChain
- 用通俗易懂的方式讲解:基于 LangChain + ChatGLM搭建知识本地库
- 用通俗易懂的方式讲解:基于大模型的知识问答系统全面总结
- 用通俗易懂的方式讲解:ChatGLM3 基础模型多轮对话微调
- 用通俗易懂的方式讲解:最火的大模型训练框架 DeepSpeed 详解来了
- 用通俗易懂的方式讲解:这应该是最全的大模型训练与微调关键技术梳理
- 用通俗易懂的方式讲解:Stable Diffusion 微调及推理优化实践指南
- 用通俗易懂的方式讲解:大模型训练过程概述
- 用通俗易懂的方式讲解:专补大模型短板的RAG
- 用通俗易懂的方式讲解:大模型LLM Agent在 Text2SQL 应用上的实践
- 用通俗易懂的方式讲解:大模型 LLM RAG在 Text2SQL 上的应用实践
- 用通俗易懂的方式讲解:大模型微调方法总结
- 用通俗易懂的方式讲解:涨知识了,这篇大模型 LangChain 框架与使用示例太棒了
- 用通俗易懂的方式讲解:掌握大模型这些优化技术,优雅地进行大模型的训练和推理!
- 用通俗易懂的方式讲解:九大最热门的开源大模型 Agent 框架来了