从专才到通才

  • 过去的生成式 AI 觉得是一个专才,只能做一件事,比如 Google 翻译,是一个工具
  • 但是今天像 ChatGPT 这样的生成式 AI 是一个通才,它特别的地方在于它没有特定的功能,它什么都能做,你要告诉它要做什么,把它理解为“工具人”吧

ChatGPT 并不是唯一的,其最具代表性,所以本课以 ChatGPT 为例

ChatGPT 可以做什么?以最新的 ChatGPT4 来说,它可以:

读档案、读图片、网络搜寻、写程序并执行、画图、使用其他工具、定制化 (GPTs) …

  • 不要问 ChatGPT 能为你做什么(这是「专才思维」,你认为 ChatGPT 只有某些固定功能)
  • 要问你想要 ChatGPT 帮你做什么(只要你下对指示,ChatGPT 就可能能帮助你)

ChatGPT 算是个…

  • 聊天机器人 ❌
  • 搜索引擎 ❌
  • 助理、助手 ✅

这些 AI 在「想」些什么?

这些 AI 好像无所不能、无所不知,那么它们到底在「想」些什么呢?整个世界对它来说是长什么样子的?

有篇知名研究 AI 在「想」什么的论文分析了:对 LLaMA 来说,世界上不同的地点在地图上的哪一个位置(如上图所示)

可以看到基本是正确的

徐有齐同学也做了个实验:让 LLaMA 输出台湾每个里(如:大安区大学里)的地理位置

可以看到 LLaMA 对台湾地理的认知还是很有限的,不过另外一个模型 TAIDE 输出的结果要好很多,因为它读了较多的繁体中文资料,对台湾了解的更加深入

全面评估模型并不容易

使用者的要求千奇百怪、同一种要求可以有截然不同的解法

你觉得哪一种模型是做的最好的?很难有很好的评估标准

延伸到一个问题

我们在使用这些大语言模型时经常会发现:模型会犯错、有时候会有幻觉,因此我们经常抱怨

但是你有没有想过,对于一个模型来说,它要想完全不犯错、完全没有幻觉,其实是并不困难的,它只要足够“保守”,或者说“身为一个 AI 我不想回答这个问题,我无法做这件事情”,它就永远不会犯错

它今天犯错是因为它努力的尝试解决你的问题,所以它才会犯错,所以我们对于这些模型犯错不要太过苛责

对于如何评估一个模型是一个学问,对于模型的评估是非常复杂的

现在往往有人开发了自己的模型,就跳出来说“我这个模型在某些任务上已经超过了 GPT4”,但是要注意是在某些任务上,往往在全面评估的时候那些号称是超过了 GPT4 的模型并不能在所有的面向上都能达到 GPT4 的水平。所以当坊间对某某模型进行吹嘘的时候,大家是需要多注意一下的

防止说出有害的内容

过去不用担心人工智能说错话,「分类」只能从既定选项中选择。但现在人工智能可以说任何话了……,我们就需要防止其说出有害的内容,如:脏话、抄袭、歧视等

但是也不要过了头,需要一个平衡点:

作为用户

现在 AI 已经从「工具」进化成「工具人」,那我还能做什么?

思路一:我改不了模型,那我改变我自己

Prompt Engineering:人类与人工智能沟通的艺术

Engineering:工程学的英文「engineering」一词来自于拉丁文 ingenium(意为「巧妙」)、ingeniare(意为「设计」)—— 中文维基百科,2024/02/17

巧妙地设计给语言模型的输入,引导它给我们想要的输出

思路二:我要训练自己的模型