背景
- 2017.06 transformer模型架构论文发布
- 2018.06 gpt-1模型发布,参数量1.17亿
- 2019.02 gpt-2模型发布,参数量15亿,decoder-only的模型通过prompt解决非常多task,泛化能力强
- 2020.05 gpt-3模型发布,参数量1750亿,大力出奇迹,提出zero-shot,few-shot概念
- 2022.03 instruct-gpt, 参数量1750亿+RLHF,基于RLHF对齐人类偏好
- 2023.03 gpt-4发布,多模态,参数量预估万亿规模
- 2022.11 chatgpt横空出世,让我们感觉到agi真的要来了
当前各类AI+应用如雨后春笋般出现,AI+Law,AI+Data,AI+Market,AI+Assistant,AI+Math,很多人都觉得大模型是人类历史上另外一个iphone时刻,因为在其上可以用新的逻辑构建非常多应用,重塑当前的生态,连openai都觉得未来重点发展方向是agent,如最近出现的code-interpreter
什么是Agent,简单点说就是基于大模型的能力,完成特定任务的智能体,可以辅助人类解决一类问题,比如个人助理,帮你订机票,帮你订酒店等等
它主要包含几个部分tools, planning, memory, action;
- tools包含一系列的工具,比如搜索,日历,计算器,可以获取外部数据或者能力,因为这些能力通常是大模型不擅长的计算
- planning用于规划问题解决路径,通过大模型的理解能力和判断,规划用户的问题需要哪些tool来进行解决,比如用户想看些时政新闻,此时就会用到搜索引擎来进行搜索,然后整理成结构化数据展示
- memory用于记录历史步骤结果,以及用户的上下文,方便快速准确的识别用户意图
- action就是具体操作了,使用相应工具执行即可
- 当然planning的模块也包含很多设计内容,如何做反思,如何实现COT,如何拆解任务,是比较核心的模块
几点预判
- 未来所有与人交互的产品,都会变成自然语言的模式,因为这是最符合人类习惯,而大模型恰恰能做到这件事情
- 做底层大模型的公司不会太多,因为这是一个零和游戏,强者更强,反而做上层应用,toB,toC都大有前景,这里面有非常多细分的机会
- 可遇见的未来,所有产品都会被重塑,这反而是创业者的机会,因为大厂的认知现在也是初级阶段,创业者的优势是可以更快学习,适应,调整,更新
- 硬件上会有很多改变,UI的交互不是必须了,语音的能力会加强,输入法会成为历史
- 不需要太多APP了,很多基础能力互联网已经建设好,比如物流,外卖,电商,最后只需要一个Assistant
- 必须要重新学习,用新的思路来做事,以前觉得不可能的事情,现在可以做了,比如电子宠物,比真实的宠物更体贴,更自愈
~ 先说到这儿,必须要抓紧行动了
reference
- https://lilianweng.github.io/posts/2023-06-23-agent/
- https://medium.com/@gerardo.pdm/karpathy-the-potential-and-challenges-of-ai-agents-f53c55734050
- https://mp.weixin.qq.com/s/kA7FBZsT6SIvwIkRwFS-xw
- https://openai.com/research/instruction-following
- https://www.zhihu.com/question/570431477
- transformers: https://arxiv.org/pdf/1706.03762.pdf
- gpt1: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
- gpt2: https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf
- gpt3: https://arxiv.org/pdf/2005.14165.pdf
- instructgpt: https://openai.com/research/instruction-following
- https://www.wolframalpha.com/input?i=exp%28x%29+from+0+to+1
- https://zhuanlan.zhihu.com/p/350017443