在11月6日召开OpenAI首届开发者大会上,CEO Sam Altman公布了多项令人Amazing的更新。
GPT-4 Turbo模型,支持128K上下文,知识截止更新到2023年4月,有多模态能力,API价格为GPT-4 8K模型的1/3;
GPTs,每个人都能通过聊天定制自己的私人GPT,未来还有GPT Store进行交易;
Assistants API,方便开发者创建LLM的Agent应用。
等等
Turbo模型和Assistants API相对是应用开发者更关心的内容,而对于一般用户,GPTs可以说是本次大会上最王炸的更新。
作为自定义版ChatGPT—GPTs为个人和企业提供了高度定制的交互体验。这些GPTs可用于特定任务,如教育、工作效率提升或家庭娱乐。用户可以在不编程的情况下创建GPT,并选择其功能,例如网络搜索和数据分析。这对于医生科研来说,无疑也是非常实用的工具。
解螺旋体验GPTs
解螺旋今天尝鲜了GPTs后就讶异于其强大的功能,下面来演示下具体的使用过程。
首先在新版ChatGPT左栏会出现"Explore",点进去后就能看到"Create a GPT"。这就是定制私人GPT的功能,下面也有一些官方做好的GPT应用,比如图片生成的DALLE等,大家也可以尝试下。
进入聊天页面后告诉ChatGPT你的需求,比如这里我要做个在PubMed查文献的GPT。
它会通过对话来自动生成应用,还有建议的名字,以及DALLE做的图标。到这步大框架就已经完成了,后面也会有GPT引导进行个性化调整。
试用下学习助手
它给我找了5篇,全都附有链接,说明不是以前那种胡编的文献,还有文献介绍,效果还不错。
体验下来,全程不用写代码,操作也很流畅,体验非常Nice。可以想象的未来必然会出现,临床数据分析助手,实验助手等等。
在解螺旋下周上线的酸菜AI中,也有根据每个人的学习过程,做出类似GPTs定制的"分身应用"。争取凭借解螺旋多年沉淀,在科研的垂直领域,给出不亚于GPTs的良好体验。
《三十六策》问答:在学习《三十六策》有不懂的地方,都可以向它提问。
智能助教:包括课程视频,答疑和学完每一策的考试。当您考完试后,将开启专属的"分身应用"。
分身应用:根据每个人的学习成果而生成的定制型AI。
Agent,大模型的下半场
不论是GPTs,还是酸菜AI的"分身应用"之所以能比一般LLM更像人,底层逻辑还是智能体(Agent)的应用。AI Agent可以说是目前LLM应用中最有潜力的风口,这从OpenAI官方的重视程度也可见一斑。
在人工智能领域,Agent是指一个能够在其环境中自主操作以达成目标的系统。这个定义蕴含了几个关键特征:
自主性:Agent能够在没有直接人为干预的情况下控制其行为和内部状态,比如使用各种给定的工具。
社会能力:Agent可以与其他Agent(包括人类)进行交互,这通常涉及到通信能力。
反应性:Agent能够感知其环境的变化,并在适当的时候做出快速响应。
主动性:除了对环境变化做出反应,Agent还能够主动地采取行动以改变环境。
有大语言模型为核心的Agent,主要是增强了前两项能力。
Agent的作用是多方面的,具体包括:
执行任务:无论是执行简单的数据输入任务还是复杂的问题解决,Agent都被设计来执行特定任务。
自动化过程:Agent可以用来自动化重复性高、耗时的过程,提高效率和准确性。
增强决策:通过收集和分析数据,Agent可以辅助或增强人类的决策过程。
目前来说Agent技术可以粗略分成单Agent系统和多Agent系统。接下来解螺旋会简单介绍下当下流行的一些Agent系统,重点放在它们的工作原理、主要功能、以及它们如何与用户或其他系统交互。
单Agent系统
AutoGPT
在ChatGPT刚问世不久,AutoGPT就是一个令人惊艳的明星项目,短时间内就在Github上收获万星,目前已有153K的star,算是个Agent里程碑式的项目。它是一个遵循单一Agent范式的开源AI Agent实现。
它旨在自主地实现给定的目标,通过增加多种有用的工具来增强AI模型的能力。例如,AutoGPT可以整合文本生成、数据分析和自动化脚本等功能,但它设计上不支持与其他Agent的协作,因此适用于那些需要独立操作的任务。
GPTs
GPTs 是OpenAI提供的聊天AI服务的高级版,配备了代码解释器或插件。这些功能让ChatGPT能够执行编程代码,从而扩展其交互能力。比如,用户可以要求ChatGPT编写并运行代码,以完成编程相关的教育任务或自动化任务。
LangChain Agents
LangChain Agents 是明星LangChain框架的一个子包,专注于使用LLM来选择一系列动作。它提供了多种类型的Agent,如ReAct agent,该Agent结合了推理和行动,主要设计用于ChatGPT之前的LLM版本。LangChain Agents通过提供一个标准化的方式来设计和部署基于LLM的应用程序,强化了Agent在特定领域内的功能,比如客户支持或内容创作。
Transformers Agent
Transformers Agent 是基于HuggingFace的transformers库构建的一个实验性API。它提供了一系列精选工具和Agent来解释自然语言和使用这些工具,能够支持一系列自然语言处理任务,例如文本分类、实体识别或情感分析。
多Agent系统
BabyAGI
BabyAGI 是一个AI驱动的任务管理系统,通过Python脚本实现。在这个系统中,有多个基于LLM的Agent分别负责不同的任务,如基于目标和先前任务结果来创建新任务的Agent,优先级排序的Agent,以及完成任务或子任务的Agent。在BabyAGI系统中,Agent之间的对话模式是静态的,即通信顺序是预先定义好的。
CAMEL
CAMEL 是一个以通讯为核心的Agent框架,其亮点在于展示了如何使用角色扮演来促进Agent之间的通信以完成任务。CAMEL使用了一种称为Inception-prompting的技术来实现Agent间的自主合作。它记录Agent对话来分析行为和理解能力,但不支持Agent使用工具,如代码执行。
Multi-Agent Debate
这个项目探讨了多Agent辩论如何有效地促进LLMs中的发散思维以及提高LLMs的事实性和推理能力。在这些研究中,多个LLM推理实例被构造为多个Agent,它们通过辩论来解决问题。这些Agent通过预定义的顺序进行交流,并不涉及工具或人类的参与。
MetaGPT
MetaGPT 是一个专注于自动软件开发的多Agent对话框架。在MetaGPT中,不同的GPT实例被赋予不同的角色,它们协同工作来进行软件开发。MetaGPT是为特定情景设计的解决方案,而不是一个通用基础设施。
AutoGen
AutoGen是一个开源框架,它允许开发者通过多个可以相互对话的代理(Agents)来构建基于大型语言模型(LLM)的应用程序。AutoGen的Agent具有可定制性和交流能力,它们可以运行在不同模式下,结合使用LLM、人类输入和工具。开发者可以使用AutoGen灵活地定义Agent之间的互动行为,既可以用自然语言也可以用计算机代码来编程不同应用的灵活对话模式。
这些系统展示了在Agent技术的应用范围和灵活性。每个系统都有其独特的特点和适用场景,从单一任务的自动化到多任务的协同合作,它们在AI领域中的作用日益重要。不论是单个Agent还是多Agent系统,它们都在推动人工智能的边界,并为各种行业提供新的应用可能性。通过了解这些系统的特点和它们之间的差异,我们能够更好地选择合适的Agent来满足我们的需求,并为未来的技术进步做好准备。