ChatGPT 已經無處不在。2022 年 12 月,總部位于美國舊金山的初創公司 OpenAI 發布了這款網頁應用,它幾乎在一夜之間成為了熱門話題。據估計,這是有史以來用戶增長最快的互聯網服務,在發布兩個月后就捕獲了 1 億用戶。我的家人甚至都在討論 ChatGPT。
很快,微軟與 OpenAI 達成了價值 100 億美元的多年合作,這項技術現在正被內置到 Office 軟件和必應搜索引擎中。搜索引擎霸主谷歌感受到了威脅并迅速作出了應對,它推出了自己的人工智能聊天機器人 Bard,由 LaMDA 模型驅動。
但 OpenAI 的突破并不是憑空而來的,ChatGPT,是迄今為止歷經多年的一系列大型語言模型中最完善的迭代。
從 1980 年代到 1990 年代:遞歸神經網絡
ChatGPT 是基于 GPT-3 模型的、一個由 OpenAI 開發的大型語言模型。語言模型是一種神經網絡,它使用了海量的文本進行訓練。
因為文本是由不同長度的字母和單詞序列組成的,所以語言模型需要一種能夠理解這類數據的神經網絡。1980 年代發明的遞歸神經網絡可以處理單詞序列,但它們的訓練速度很慢,而且會忘記序列前面的單詞。
1997 年,計算機科學家塞普·霍克雷特(Sepp Hochreiter)和尤爾根·施米德杜伯爾(Jürgen Schmidhuber)發明了 LTSM(長短期記憶,Long Short-Term Memory)網絡,解決了這個問題。這是一種具有特殊組件的遞歸神經網絡,允許將序列前面的數據保留更長的時間。LTSM 可以處理數百個字長的文本串,但它們的語言技能有限。
圖片
(來源:STEPHANIE ARNETT/MITTR)
2017 年:Transformers
今天新一代大型語言模型背后的突破在于,谷歌的研究人員發明了 Transformers,這也是一種神經網絡,可以跟蹤每個單詞或短語在序列中出現的位置。
單詞的確切含義通常取決于在它之前或之后的其他單詞的意思。通過跟蹤這些上下文信息,Transformers 可以處理更長的文本字符串,并更準確地得出單詞的真實含義。例如,“千層”在句子“一石激起千層浪”和“我愛吃千層蛋糕”中的意思是截然不同的。
2018-2019 年:GPT 和 GPT-2
OpenAI 的前兩個大型語言模型的發布僅相隔幾個月。該公司希望開發多技能、通用的人工智能,并相信大型語言模型是實現這一目標的關鍵一步。GPT(Generative Pre-trained Transformer 的縮寫)成為了一座里程碑,擊敗了當時最先進的自然語言處理基準。
GPT 將 Transformer 與無監督學習結合在一起,后者是一種在未經標注的數據上訓練機器學習模型的方法。這使得模型可以自己找出數據中的規律,而不需要人類告訴它它在看什么。以前在機器學習方面的許多成果都依賴于監督學習和標注數據,但人工標注數據的效率低下,限制了訓練數據集的大小。
引發更大討論的是 GPT-2。OpenAI 聲稱,自己非常擔心人們會使用 GPT-2“產生帶有欺騙性、偏見或侮辱性的語言”,以至于它不會發布完整的模型,再看看今天的一切,可謂是“人是物非”。
2020 年: GPT-3
GPT-2 令人印象深刻,但 OpenAI 的后續產品 GPT-3,更是讓人大開眼界。它模仿人類生成文本內容的能力獲得了巨大飛躍。GPT-3 可以回答問題、總結文檔、生成不同風格的故事,在英語、法語、西班牙語和日語之間進行翻譯等等。它對人類文字和語言能力的模仿是不可思議的。
最值得注意的一點是,GPT-3 的提升來自于大幅放大現有的技術,而不是發明新的技術。GPT-3 有 1750 億個參數(在訓練過程中得到調整的神經網絡參數),而 GPT-2 只有 15 億個參數。GPT-3 使用的訓練數據也更龐大。
但是,從互聯網上獲取的訓練文本也帶來了新的問題。GPT-3 吸收了它在網上發現的許多虛假信息和偏見,在用戶有意或無意的引導下,它會反過來輸出這些有毒內容。正如 OpenAI 所承認的那樣:“經過互聯網內容訓練的模型就會存在互聯網規模的偏見。”
2020 年 12 月:有毒文本和其他問題
當 OpenAI 忙于與 GPT-3 的偏見作斗爭時,科技界面臨的遏制人工智能有毒傾向的壓力是前所未有且與日俱增的。大型語言模型可以拋出虛假的文本,甚至是充滿偏見的文本,這已經不是什么秘密了,但研究人員發現,解決這個問題并不在大多數科技巨頭的待辦清單上。
當谷歌人工智能倫理團隊的聯合主管蒂姆尼特·格布魯(Timnit Gebru)與其他人共同撰寫了一篇論文,強調了與大型語言模型(包括高計算成本)相關的潛在危害時,這個話題并沒有受到公司高層的歡迎。2020 年 12 月,格布魯遭到了開除。
2022 年 1 月: InstructGPT
OpenAI 試圖通過強化學習來減少 GPT-3 生成錯誤信息和攻擊性文本的數量,它根據人類測試員的喜好訓練了一版模型。成果名為 InstructGPT,它可以更好地遵循用戶的指示——這在人工智能術語中被稱為“對齊(alignment)”——產生更少的攻擊性語言,更少的錯誤信息和更少的錯誤。簡而言之,InstructGPT 不會表現得像一個混蛋,除非用戶要求它這樣做。
2022 年 5 月-7 月: OPT、BLOOM
對大型語言模型的一個常見批評是,培訓它們的成本高得可怕,除了世界上最有資源的實驗室和公司之外,所有其他機構都難以建立一個模型。這引起了人們的擔憂,即如此強大的人工智能是由企業團隊閉關造出來的,沒有經過適當的審查,也沒有獲得更廣泛的研究社區的反饋和支持。
作為回應,一些合作性的項目也開發了大型語言模型,并將其免費發布給任何想要研究和改進這項技術的研究人員。Meta 創建并開源了 OPT 模型,一個重建 GPT-3 的產品。Hugging Face 領導了一個由大約 1000 名志愿者組成的合作聯盟來打造和發布 BLOOM 模型。
2022 年 12 月: ChatGPT
ChatGPT 的爆火甚至讓它的創造者 OpenAI 也感到所震驚。在 ChatGPT 發布的前一天,我有幸拿到了 OpenAI 發給我的演示,公司給它的定位只不過是 InstructGPT 的更新版本。
和 InstructGPT 模型一樣,ChatGPT 的訓練方法是使用來自人類測試者的反饋,而這些測試者對它的看法是流暢的、準確的、無攻擊性的對話者。
實際上,這更像是 OpenAI 訓練了 GPT-3 如何更好地掌控對話游戲,并邀請所有人來玩。自那時起,這場有趣的游戲吸引了數千萬人。