视界
VIEWS
多种技能。
更短的功能发布时间:
为一项新技能建立一个新管道所需的时间通常
比对 LLM 进行 p 调谐所需要的时间更长(稍后将对
此进行详细介绍)。这意味着 TTM 要长得多。
数据采集和质量维护:
任何专门构建的集合都需要大量的特定病例数
据,而这些数据并不总是可用的。必须在每个模型的
基础上收集这些数据。换句话说,除了来自集成的 I /
O 之外,还需要用于集成中使用的每个单独模型的
数据集。此外,所有模型都会随着时间的推移而漂
移,在使用多个模型时,用于微调的维护成本会迅速
增加。
这些考虑因素显示了在多个系综上使用 LLM
的价值。
聊天机器人通常是由一组 BERT 模型和一个
对话框管理器构建的。这种方法具有一些优点,例如
更小的模型,这可以降低延迟和计算需求。这反过来
又更具成本效益。那么,为什么不使用合奏而不是
LLM 呢?
就其设计而言,合奏团不如 LLM 灵活。这种灵
活性来自生成能力,以及所述模型是在需要各种任
务的大型数据语料库上训练的。
在许多情况下,获得足够的数据来应对挑战是
不可行的。
每个集合都有自己的 MLOps 管道。维护和更
新大量复杂的合奏是困难的,因为每个合奏中的每
个模型都必须定 期进行微调。
虽然像 BERT 这样的语言模型已经被有效地用
于处理文本分类等许多下游任务,但已经观察到,随
着这些模型规模的增加,某些额外的能力也会出现。
这种规模的增加通常伴随着以下三个维度的相
应增加:参数的数量、训练数据和训练模型所需的
计 算 资 源。有 关 详 细 信 息,请 参 阅 Emergent
Abilities of Large Language Models。
LLM 是一种深度学习模型,可以使用大型数据
集识别、总结、翻译、预测和生成内容。 LLM 没有一
个集合的界限,但为了本讨论的目的,我们使用这个
术语来指代任何 GPT 规模的模型或具有 1B 或更多
参数的模。
这篇文章解释了在使用较小语言模型构建的一
组模型管道上使用 LLM 的好处。它还涵盖了以下基
本内容:
LLM 提示
快速工程
P- 调谐
为什么要使用大型语言模型? 提示被用作与 LLM 交互以完成任务的一种手
段。提示是用户提供的输入,模型要对其做出响应。
提示可以包括说明、问题或任何其他类型的输入,具
体取决于模型的预期用途。例如,在稳定扩散模型的
情况下,提示是要生成的图像的描述,提示也可以采
用图像的形式。通过这种方法,生成的文本输出描述
了图像提示。这通常用于图像字幕等任务。
对于 GPT-3 等模型,文本提示可以是一个简单
的问题,比如“彩虹中有多少种颜色?”或者,提示可
以采取复杂问题、数据或指令的形式,比如“写一首
励志诗,让我快乐。”
提示还可以包括特定的约束或要求,如语气、风
格,甚至所需的响应长度。例如,给朋友写信的提示
可以指定语气、字数限制和要包含的特定主题。
LLM 生成的响应的质量和相关性在很大程度上
取决于提示的质量。因此,提示在自定义 LLM 以确
保模型的响应满足自定义用例的要求方面发挥着关
键作用。
提示 LLM
术语快速工程是指仔细设计提示以生成特定输
出的过程。提示在从模型中获得最佳结果方面发挥
着关键作用,而如何编写提示可以对生成的输出产
提示工程以获得更好的提示
可以说,一组模型可以比 LLM 便宜。然而,仅考
虑推理成本,这一假设忽略了以下考虑因素:
节省工程时间和成本:
构建、维护和扩展集成是一项复杂的挑战。每个
组件模型都必须进行微调。用于模型推理和缩放以
适应流量的人工智能基础设施需要相当多的时间来
构建。这是针对一项技能。为了模仿 LLM ,必须建立
LLM 在多个系综中的价值
图 3 :DALL-E 2 文本提示(左)和生成的图像(右) 图 4 :图像提示(左)和生成的文本(右)
48