给移动开发团队的AIGC基础知识分享｜AIGC创新赛｜公司内部分享

可能有人知道，前段时间我带了几位同事参加了智脑杯AIGC创新比赛。关于AIGC，第一次引起大家关注，还要追溯到2022年11月底openai发布基于gpt3.5的chatgpt，我在第一时间就体验了。

直到今天，AIGC产业风起云涌，从最底层的“芯片战争”，到大模型软件基础设施，再到应用层，各种公司都在调整组织架构all in AI。

在说比赛的产品和技术之前，先介绍三个概念。

概念考察

AIGC

AIGC，这是非常中式的表达，对标了 PGC UGC，所以可以理解为，通过AI来创造内容，貌似这个词组现在也被一部分英文世界所接受了。
在前期，主要集中在生成文本和图片，前者的代表是chatgpt和llama2，后者的代表是midjournay和stable diffusion；现在也有生成视频、音频之类的内容。
在前期，生成内容需要输入文本描述，也称为prompt；而现在，大模型公司很多在研究用图片生成图片，图片生成视频，文字生成视频等等。也就是说，输入内容的形式和生成内容的形式可以随意匹配，称为多模态。

Copilot

第二个概念是Copilot，直译是副驾驶，本质是日常工作的辅助工具，就像是配了一个足智多谋的实习生。
比如面向程序员的编程助手github copilot，我知道我们这有一些同事已经在日常工作中用上了免费的同类产品。
这次比赛中出现了AI智能合同审核系统，在人气投票期间差点就超过了我们，后来才知道，那段时间所有人找他们审核合同，都被要求先投票再审核。

Agent

还有一个最近非常火的概念，Agent，是创投圈的热门方向。可以理解为能独自处理工作任务并交付的员工，更加完善可靠的智能体。
举个例子，Github Copilot可以根据你的描述帮你生成代码，可以查找代码BUG，可以添加注释。如果这个工具可以理解用户反馈或者产品需求，在合适的位置生成代码，提交并提测，我觉得这就可以称之为一个编程agent。
当然，目前无论国内还是海外，北京还是硅谷，提出agent概念的和还在验证中的agent有很多，但还没有一个是业界认同的真正可商用的agent。

比赛项目

我们做的项目，本质就是一个提供给xxx的copilot，辅助提升xxxx效率的ai工具。

我们的核心技术方案叫RAG。什么是RAG呢？retrieval-augmented generation 检索增强生成技术。什么是检索增强，为什么要用呢？

我们刚说到，目前的AIGC基本都是通过文本作为prompt，但写好prompt就能生成预期的文本吗？

并不能。

没有经过特殊训练的模型，称为基础大模型。可以认为是一个普通的大学生，“知道”很多基础知识、公开的知识，但没有行业经验，没有专业深度。

所以，一些背景信息和知识就需要埋在prompt中，作为推理的核心依据。

我们一开始就是通过手动预埋了很多背景知识，比如xxx，这样，大模型根据这些背景信息和用户输入的动态信息，做出后续的推测。

但是，如果所有的信息都手动填充，就会显得很蠢，RAG方案就应运而生。今年很多创业公司也都做了这种平台，但前段时间的openai devday发布了自己的平台之后，基本都关业大吉了。

这种平台，通常称为知识库。

知识库中，所有提交的文本，可以是txt，或者是pdf，或者其他可提取文本的文件，都会切割成一个个独立的文本单元，通过embedding接口向量化，并存储到向量数据库中。当然，向量数据库也是一个非常重要的创业方向。

通过向量数据库的query接口，查询到与“问题”相关度最高的n个“单元”，作为prompt的背景信息。

毕竟prompt的容量非常有限，把所有的信息都放进去不现实。

这就是RAG的基础逻辑，根据私有知识库完善prompt。据说也有一些公开的知识库可以查询，我还没研究过。

很多法律行业的AIGC产品，还有搜索总结类产品，如BingAI，都是基于RAG技术实现的。
如果了解LLM的进展，会知道 Claude2.1 已经可以进行 200k token 的 input output 了，也就是说，你可以喂给他一本书作为背景信息，那么，RAG还有用吗？

根据我的理解，有两个还需要继续使用的理由，一是使生成更加聚焦，没有无关信息的干扰，输出更加稳定；二是成本成本成本，input output 都是会根据 token 量做结算的。AIGC领域有一个很重要的技术能力，就是如何减少 token 的消耗以降低成本。

我理解更大的 token 处理量，关键是解决了大模型“失忆”的问题。大家知道为什么chatgpt在同一个交互中，越聊天，token消耗越大吗？因为，每次的交互，都会把历史纪录带上去，这就是它的记忆。

回过头来，为什么我们比赛会选择xx这个方向？因为我还是比较了解xx工作的，运营沉淀了大量的xx案例分析资料，都可以作为知识库来使用。

跟刚刚提到的法律行业一样，法律行业的AIGC产品的护城河，也是高质量的私有数据。

Fine tune

最后再提一个概念，fine tune，微调，本质就是在基础大模型基础上做训练，我们为什么不训练模型呢?

有这么几个理由，一，训练模型需要大量优质的语料，我们的资料都是少数运营手写的，未必能达到有效训练的量；二，训练不能增加知识，output的本质是续写，是预测，只能说会增加某些概率，不能作为知识的补充；三，依然是成本，训练的成本可比推测的成本和embedding的成本高很多。

在gpt发展的这一年，很多创业者都感叹，自己购买大量算力和语料微调的模型，在gpt基础模型一次升级之后竟然被完全碾压了。

最后

这就是我今天分享的所有内容，希望对大家有启发。