训练不了人工智能？那我训练自己

强调：在本节课中没有任何模型被训练

本节课授课方向

本节课重点不是讲针对特定任务的 prompt
给语言模型的 prompt 不需要特定格式
按照今天语言模型能力，你把需要的任务描述清楚即可

把大型语言模型想成一个在线的新人助理

人：拥有一般人的基本知识与理解能力
新：不了解专属于你的事情

不训练模型的情况下强化语言模型的方法

1 . 神奇咒语

免责声明：神奇咒语并不一定对所有模型、所有任务都适用

让模型思考

Chain of Thought (CoT)

让大语言模型（比较老的一个模型：InstructGPT (text-davinci-002)）解一个数学问题：

直接让它解：正确率 17.7%
告诉它“Let’s think”：正确率 57.5%
告诉它“Let’s think step by step”：正确率 78.7%

这个方法也帮助 GPT-4 看图，官方 demo 中也使用了这个“咒语”：

让模型解释一下自己的答案

对模型情绪勒索

和模型说“这件事情对我真的很重要”，模型就会“更认真”的回答

Large Language Models Understand and Can be Enhanced by Emotional Stimuli

用 AI 来找神奇咒语

用增强式学习 (Reinforcement Learning, RL)

Learning to Generate Prompts for Dialogue Generation through Reinforcement Learning

一个用 AI 来找神奇咒语例子：

任务目标：回应越长越好
目标模型：GPT-3

直接用语言模型

直接问语言模型：“我如何提问，你能给出更好的回复？”

Large Language Models Are Human-Level Prompt Engineers

之前提到的让模型思考的神奇咒语“Let’s think step by step”，通过直接问语言模型找到了更强的咒语：“先深呼吸一下，之后再一步步地工作”

Large Language Models as Optimizers

神奇咒语并不一定对所有模型都有用

让模型思考

GPT 3.5	2023 年 6 月的旧版本	2024 年 2 月的最新的版本
没有神奇咒语	72%	85%
“Let’s think step by step”	88%	89%

神奇咒语的效果大大减弱了

让模型解释一下自己的答案

对于 GPT-3 或更早的模型不一定有帮助

The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning

2. 提供额外信息

把前提讲清楚

没讲清楚：

讲清楚：

提供生成式 AI 不清楚的信息

先去搜寻相关资料输入给语言模型，然后再问：

提供范例

这种提供范例，可以让模型根据范例得到更准确的答案叫做：In-context learning

强调一下：虽然有 learning 这个词汇，但是要注意此处没有任何模型真的被训练

Language Models are Few-Shot Learners

语言模型真的能看懂范例吗

人们非常好奇，语言模型只是文字接龙，它真的能从例子中学习吗？

Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

这篇文章指出：语言模型没有真的看懂范例

如何知道语言模型有没有看懂范例？

将原本正面的情感范例给成负面，将原本负面的情感范例给成正面。如果语言模型能看懂范例，则让它分析“我感到非常高兴”的情感，它应该返回“负面”，但 2022 年的语言模型并没有，它还是返回“正面”，也就是说明语言模型没有真的看懂范例

既然语言模型没有真的看懂范例，那为什么提供范例会使语言模型的回答更好呢？

也许是因为提供范例的时候，它能更清楚要做什么样的事情（这里是回答“正面”或“负面”），它可以得到更精准的答案，但并没有真正仔细的读懂范例

语言模型的发展是极其迅速的，过了一年以后，有人做了新的实验，使用更新更强的语言模型来测试它们读范例的能力

Larger language models do in-context learning differently

上图中颜色越深的图例表示越强的模型（参数越大）

可以发现：更强的模型真的部分读懂了范例

我们用 ChatGPT-4 来试一下：

另一个例子

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Google 做了一个实验：让语言模型翻译 kgv 语言到英语和从英语翻译到 kgv 语言，分别让它：

直接翻译
给它半本 kgv 语言的词典和语法书后翻译
给它全本 kgv 语言的词典和语法书后翻译

kgv 语言

kgv 语言是一个很稀有的语言，现在全世界会这种语言的人只有千数左右。网上也很难有它的资料，可以认为模型训练时没有接触过

所以使用这种语言做使用，可以看出提供额外信息对语言模型的帮助有多大

得出如下分数：

重要观念

考考大家的观念：

语言模型无法翻译 kgv 语言，给它教科书后，它可用通过文字接龙接出正确的翻译。之后别的人让它翻译 kgv 语言，它是否能成功翻译？

答案是：不能翻译！

因为这里没有任何的模型被训练，模型始终是一样的！只是提供的输入不同，得出的结果也大相径庭

3. 把任务分多步骤来解

拆解任务

将一个复杂的任务直接让语言模型来解，它一般效果不是很好
但如果将复杂任务拆解成很多小步，然后让语言模型解决一个个小问题，往往效果很好

一个例子：让语言模型写一篇关于生成式 AI 的报告

它往往无法写的很好、文章也没有办法写的很长
我们可以将写一个长篇文章这件事情拆解成一些小的步骤
1. 写大纲：“我要写关于生成式 AI 的报告，帮我把大纲列出来”
2. 让语言模型写大纲的某一小结：“撰写生成式 AI 的重要性”、“撰写生成式 AI 的种类”……
3. 而如果这样一段一段分开写的话，也许语言模型就不“记得”之前写过什么了，就出现前言不对后语的状况
4. 如何解决？可以让它根据之前生成的文章做摘要，写新段落的时候基于摘要继续生成