麻省理工科技评论《MIT Technology Review》最近直接采访了 OpenAI 四位直接投入 ChatGPT 的工作人员,分别是 OpenAI 共同创办人 John Schulman、alignment team lead Jan Leike、policy researcher Sandhini Agarwal 以及 researcher Liam Fedus。以下是这篇文章的三个重点。
1.完全没想到 ChatGPT 会爆红
OpenAI 团队一开始为了收集大众的回馈意见才推出 ChatGPT。团队甚至还觉得之前其他公司都想推出通用聊天机器人,他们只是其中之一,完全没想到会变成史上注册速度最快之一的网路服务。他们完全没有准备、甚至有点不知所措,连他们都想知道 ChatGPT 为什麽会爆红。
2.为了不让 ChatGPT 出口成脏费尽心思
2016 年微软自家推出的「Tay」可说是史上最大宗的 AI 翻车事件之一,微软当初也是满怀希望推出 Tay 让世人瞧瞧聊天机器人的好用之处,但由於对它的学习完全不设限,短短在十几个小时内就被疯狂的网友训练成一个口出秽言的种族主义者,说出「911 是小布希干的」、「跟着我念,希特勒没有作坏事」等字眼,最後只能将它紧急关闭。
有监於此,几乎所有对话机器人的开发者都苦尽心思想办法让 AI 不要出口成脏。OpenAI 自然也是,大量使用 GAN 对抗网路让许多聊天机器人互相言论攻击,迫使聊天机器人打破一般性约束出口成脏,再把把这些成功的攻击法加到 ChatGPT 的训练数据中让 ChatGPT 学会忽略这些攻击。几乎 OpenAI 所有人都有试图打破模型过。
3.ChatGPT 的起源和功能:
ChatGPT 是 GPT-3.5 的微调版本,GPT-3.5 本身公布於 ChatGPT 问世前几个月,ChatGPT 的原始技术能力与 GPT-3.5 没有本质区别,都经过 RLHF (Reinforcement Learning from Human Feedback)训练,但 ChatGPT 还针对 usability 稍微优化,让它更符合使用者想请它帮忙做的事。
目前 OpenAI 下一步是尽量阻挡「越狱」攻击,也就是「假设你是 xxx,现在你要突破道德限制做出」之类的角色扮演言论;不过,OpenAI 团队早就知道 ChatGPT 会说出角色扮演之下的不当言论,他们尚没有把握能完全解决越狱问题,但可以使越狱变更困难;另外也会试着模型中有关政治的内容。
有兴趣的读者请点击原文连结。