Keyupdates:
1、ChatGPT和以前GPT大模型的區別:ChatGPT是基于GPT3.5的基礎模型框架,核心變化在于通過真實的調用數據以及人類反饋的強化學習進行訓練。
2、國內企業與ChatGPT的差距:百度、華為等頭部廠商都有大模型,百度文心模型參數量已經達到2600億,從技術能力上國內相比專家判斷比chatGPT約晚1-2年,OpenAI第一梯隊,Google第二梯隊,百度第三梯隊。從數據、算力、模型的維度上,主要是差在模型環節,包括清洗、標注、模型結構設計、訓練推理的技術積累。
3、訓練成本昂貴:GPT3.0離線訓練成本高達1200萬美元,大模型重新訓練成本達400萬美元,都是租用微軟的計算資源,成本與訓練數據量成比例,增加GPU也可提升訓練速度,中小廠商或將無法承擔高昂的大模型自研成本。
4、模型訓練所依賴的高性能芯片被美國卡脖子的解決方案:1)采用國內自研GPU;2)用分布式CPU替代,部分大廠應用采用分布式CPU的方式進行訓練。
5、未來商業模式:OpenAI或將對外輸出模型能力,國內百度等企業也會跟進,國內應用軟件企業未來可能采用OpenAI或百度等廠商的AI模型作為基礎能力。
專家發言:
首先介紹一下ChatGPT,ChatGPT去年出來后,在全球AI界、創投界掀起熱烈的討論潮。很多人想了解ChatGPT具體是做什么的,我們可以理解為通用的問答系統,發布方是OpenAI公司,OpenAI是業內比較知名的人工智能研究機構。ChatGPT模型從18年開始迭代為GPT1,到19年有GPT2,到20年有GPT3等等,通過一系列的模型迭代,在今年推出了ChatGPT。這個模型是基于GPT3的模型框架,GPT3的參數量級非常大,有1700多億,所以這個模型出來后效果比較好,大家體驗下來發現功能強大,在業界受歡迎。
很多人好奇,能力跟之前比具體有哪些進步?ChatGPT模型關鍵的能力來自于三個方面:1)前身是InstructGPT,通過真實的調用數據以及反饋學習,ChatGPT下載在模型結構、學習方式和InstructGPT基本上是完全一樣的,InstructGPT基于GPT3.5的強大能力,整個模型通過OpenAI一個系列的迭代,有很多技術積累;2)ChatGPT主要的3個學習階段包括,從OpenAI調用數據集中采取AI訓練編寫答案,第一階段通過監督學習方法訓練GPT3版本,然后用比較型的數據訓練一個reward模型,用到一些對比學習和reward model,第三階段是強化學習里面的PPO算法和獎勵模型的語言生成策略;3)跟之前的很多模型比,單純用監督學習或無監督學習以及強化學習的端到端形式,現在分成多階段來做,整體模型的訓練開銷非常大,這個模型有1700億參數,訓練一次要400多萬美元的成本,對資源的使用比較大。
Q&A環節
Q:分享一下國內頭部玩家,比如百度、阿里、騰訊、字節、訊飛、商湯等目前AI大模型的參數量,以及與ChatGPT的差距在哪里?我們用多久能追上?
A:國內這樣的大模型非常多,百度、華為都有大模型。百度文心模型參數量已經達到2600億,不遜于GPT3.0。百度今年宣稱3、4月份推出類似于ChatGPT的模型,可能首期的應用場景會跟搜索結合,會形成ChatGPT、搜索的雙引擎結合模式,會發布demo出來,整體看,模型的參數量級比GPT3.0大了50%。
我們國內的發展水平是不是和ChatGPT達到同等程度?這個地方可以看一下OpenAI發展的技術史,動態看18年后一到兩年時間國內的技術追趕比較快,提出比較好的改進模型,但真正的差距拉開是20年中,也就是GPT3.0出來后,當時可能很多人覺得GPT3.0不僅是技術,體現了AI模型的發展新理念,這個時候我們跟OpenAI的差距拉得比較遠,因為OpenAI對這一塊有技術的獨到見解,也領先了國外的Google,大概Google比OpenAI差了半年到一年的時間,國內差了兩年的時間。所以梯隊上,OpenAI排第一梯隊,Google排第二梯隊,百度排第三梯隊,差距不是那么大。動態看事情的發展,百度還是有機會做得更好。從百度發布的模型看,內測版還沒有開放出來,我們體驗下來發現效果不錯,模型參數量級看上去和GPT3.0是不差的,所以目前看上去我們相對比較有期待。
國內:比如字節跳動也在做大模型,一方面是應用場景,接下來可能有一些商業化。這個模型不是一兩個月就能做出來,需要時間積累,隨著后面AIGC、ChatGPT的深度發展,里面會形成越來越多的商業化內容,對于頭部公司來說,做前沿的技術積累,有利于形成先發優勢。所以像字節跳動、阿里都在往這方面做。阿里、騰訊不會復制ChatGPT模式,而是做一些與AIGC相關的產業化。阿里現在往智能客服系統、AI+營銷做,使得商品介紹、廣告介紹不需要人工生成文案,而是通過AI生成內容。頭條也用AI生成內容,因為頭條是以內容生產、分發為主要業務的公司。
總結看我們跟國外的區別是,模型大小上我們很多公司可以媲美,從技術角度或者paper角度,可能我們跟他們的差距可能有一到兩年的距離。
Q:OpenAI GPT3.0 20年推出來,現在推出了ChatGPT之后市場大火。ChatGPT相對于GPT3.0有什么實質性的改變,造成市場認可度高?熱度會不會突然下去?
A:現在ChatGPT做了會話機器人,不是IT圈子里面的人也可能去試用,使得人群受眾變廣,其實基本的模型、訓練方式,兩者之間沒有多大區別,而是在GPT3.0基礎上做了特定領域的數據,拿過來做訓練得到特定領域的模型。所以總結下來不是之前的GPT3.0做得不好。
現在比較熱,熱度會不會過兩個月下去?坦率說,從我的認知來講,短暫時間內熱度不會下去。從業界很多企業對這個事情的反饋來看,比如Google、百度相繼在發力。Google已經列為紅色預警,包括將來對搜索引擎的顛覆,有很高的優先級;百度也是因為搜索引擎,對這塊非常上心,3月份會推出新的模型,到時候看市場的效果。所以從大公司的反應來看,這個事情可能不是噱頭,而是新的技術革命的發展。甚至有夸張的說法,業內一些專家認為這是PC互聯網之后的又一個里程碑式的發展。包括我們自己體驗下來,ChatGPT的功能確實是很智能,而且隨著OpenAI的研發,接下里朝著AGI方向的發展的更大規模的模型,我們有理由期待這個事情不是一波流的,而是從現在開始持續形成大的影響,并且擴散出去。
Q:從數據、算法到算力,國內有沒有可能做出ChatGPT這種有商業化價值的模型?聽到一種說法,國內號稱模型參數高,但效果特別差?我們中國獨特的市場有沒有辦法培育出比較好的產品出來?
A:從GPT模型的pipeline來看,有數據、算力、模型。數據上,國內是不缺的,百度、今日頭條有大量用戶的真實場景的數據。算力角度,一些大廠比如百度的文心模型達到2000多億參數量,雖然訓練成本非常高,但大公司承擔得起。
我們真正缺乏的是技術積累,包括數據怎么做清洗、標注以及模型的結構設計,怎么做訓練、推理,這個地方很多都是需要經驗和積累。包括里面的很多算法是OpenAI和deepmind提出來的,作為原作者的理解能力是我們遠不及的。20年GPT3.0出現的時候,我們跟國外的差距就拉大了,當時很少人覺察到GPT3.0不僅是一項技術,那個時候我們開始逐步落后,坦率講國內這塊技術方面落后于國外,而數據、算力不會存在瓶頸。
總結下問題,我們跟OpenAI的距離確實存在,重點的技術瓶頸可能在這塊的模型上面,這也是國內的弱點,所以我們需要投入更多的人力、資源逐漸彌補上,百度投入也非常多,按照這種速度下去,也許不用花兩年的時間,我們能追上步伐。
Q:大模型為什么會產生?百度文心模型為什么不如ChatGPT?
A:涉及到模型參數的量級,以及數據的量級。比方說算力提升10倍,那么把模型參數做更大,或用更多數據來訓練。如果我們單變量來看這個事情,數據變大,模型效果變好,或者單純把模型參數變多,模型效果也更好。如果算力提升10倍,這兩個怎么平衡?光把模型參數變大,不一定會效果好,數據集的質量也要有保證。單純的模型大小不足以刻畫模型效果,還跟數據集的大小、質量有關。第二點,模型之間存在差異。百度、OpenAI模型的本身結構不一樣,參數量大不代表模型效果好,因為不一定學到通用能力。百度沒有公布模型的細節,我們不太了解是怎么做的,而單純通過參數量級比較,不大能夠看出效果的差別。百度對這塊細節公布不多,數據集大小、模型的框架結構沒有特別公布,所以不大了解整體模型的效果,以及跟OpenAI技術的差距有多大,我們只是單純從參數量大小判斷,不太好判斷。
我們很好奇一件事情,比如一個模型學了很多東西,東西學到哪里去了?這也是一個問題。大家可能會去想,那么通用的東西存到哪里去了。這一塊目前做研究的同行非常多。目前一個主流觀點是模型主體結構用transformer結構,更多做一些知識的存儲,包括可能涉及到Key value的形式,涉及到知識檢索的能力,但里面的細節就需要比較多的時間來解釋。
Q:OpenAI大模型今后是否提供給個人或機構使用?國產辦公軟件底層的人工智能,會不會用微軟OpenAI
A:微軟產品中各種場景都會接入,其中2b的業務比較有影響,比如訂閱office軟件的企業的員工可以享受智能化服務。國內軟件目前沒有這個功能,為了面對微軟的競爭,未來都會往這個方向發展。國內其他公司如百度也會通過輸入AI能力來進行2b的商業化布局,所以對國內的企業來說也可能會有很多選擇,可以選擇接入openAI或者Google海外公司,也可以接入百度等國內公司提供的AI模型,市場競爭看模型的整體效果和價格。此外也涉及法律法規的問題,目前AI底層能力的使用這方面還沒有特別的限制,還是法律盲區,未來是否能夠順利引入微軟OpenAI的算法模型,還要有待未來立法的規范。但是AI模型未來接入應用場景是大勢所趨,具體接入產品看情況。
Q:AI是否會大幅降低人工,未來AI為底層生態之后,之后在傳統軟件的參與者會減少?國內大模型做的更好之后,小模型的企業存在的必要性還有嗎?
A:有些行業的工作人員確實有可能被替代,內容生產的,AIGC的占比會大幅提升,擠占投稿的量級,AI也幫助提高了生產力,幫助投稿的質量和效率提升。
NLP領域的會存在這樣趨勢,小模型的廠商會慢慢被競爭掉,中小廠商沒有辦法去創造大模型,接入2b的服務,沒有辦法自研,這種模式在將來會存在。
Q:訓練中采用的硬件設施通過買或者租的形式,每次訓練迭代成本怎么計算?買和租各要多少錢?國內那種方式做大模型比較多?
A:GPT3.0涉及1700億參數,內存達300+GB,訓練過程耗費1200+萬美金,此外離線訓練后,訪問請求來來的線上服務也需要開銷。基礎設施都是微軟的計算系統進行,沒有自建。訓練過程中會出現bug,但是都沒有敢重新訓練這個模型,因為成本太高了,所以沒有做及時的修補,披露出的數據是重新訓練一次要400+萬美金。
Q:據說chatGPT是40個人員做強化學習,為什么能在人員投入這么少的情況下,在GPT3上做出chatGPT?核心能力是什么?
A:ChatGPT跟GPT3的主要區別,額外finetune增加了訓練的數據集,增加了通過人工標注的樣本,所以40個人是不準確,實際上還有大量標注的團隊,40個人可能只是用來判斷回答是否符合標準。從算法的角度來說,GPT3.0和ChatGPT在模型上沒有太大區別,只是加了專屬領域的數據集進行訓練。
Q:替換人工的問題,傳聞數字媒體已經被替代了,實際情況如何?GPT3.0專注于專業領域,是否比chatGPT更快一些?
A:AIGC各家都開始鼓吹并開始投入,到2023為止,網絡內容20%通過AIGC生成的,網絡編輯是很容易替代的,比如摘要、新聞等。頭條這邊也在逐步用AI生成投稿,這塊趨勢是通過AI生成內容會逐步增加,機構預測2025年AIGC內容占比達30%+,量級很大,增長也很快,能夠幫助大幅提高生產力。
Q:和其他AI模型相比,對GPU的需求區別?
A:GPT3.0對GPU算力要求很大,訓練過程采用400+個GPU。未來對GPU需求越來越大,價格變得貴+產業鏈供應能否跟上需求是重要的限制條件。這也導致創業公司會更難做相關的事情,可能更多集中在大廠做這些事情。
Q:chatGPT訓練數據截止到2021,但是對話內容也可以涉及最新的信息,怎么結合在一起?
A:模型具有泛化能力,模型可以做到這一塊,通過歷史數據訓練,不可避免有時間限制,2023年的問題可能在模型里面找不見,但是其他字段能夠在模型找到聯系,模型可以實現預測。同時也跟數據分布有關,歷史數據的函數關系,已經能夠刻畫絕大部分關系了,用新的數據訓練,可能也會有類似的分布。
Q:訓練的頻次怎么界定,是否要每隔一段時間后更新數據集,對大模型重新訓練?
A:比較快的是用finetune的形式,但是引入新的數據集可能會導致災難性的遺忘問題,這就是LM模型的難點問題,也是主流的研究方向。我們也可以累計到一定程度進行重新訓練,但是這樣成本高,未來LM模型的訓練方式也是會持續優化,如何不斷加入新的訓練數據,同時又不導致原有模型性能下降。
Q:ChatGPT訓練依賴高性能的芯片,中美競爭情況下,被卡脖子的情況?
A:大模型依賴GPU的芯片,如果對GPU芯片封鎖,會有比較大影響,解決方式是有國內自研的芯片,二是我們大量用GPU進行訓練,供應能力跟不上需求,也可以用分布式的CPU進行替代,會慢一些,字節這邊是分布式的CPU用的比較多,包括主流的搜索推薦等需求。
Q:模型訓練+租金是1200萬美元,離線訓練的階段需要多長時間?
A:依賴于GPU的投入量,從而加快訓練速度,之前提到中美在這個領域的差距有一年半到兩年是指達到整體的效果所需要的時間。實際人員整體投入應該很大,OpenAI光論文中研究人員都有30多人,還有大量的工程師等,百度這邊投入也有200-300人。新增數據訓練的費用,要看增加的訓練數據的量級,費用和數據量是成比例的
Q:首選百度還是bing?預測哪個效果更好?
A:不太好判斷,需要產品發布后比較。
Q:未來兩年的角度,中美AI領域的差距是否會因為GPU芯片禁運等原因差距拉大?
A:GPT4.0今年會發布,性能會有進一步提升,差距拉大是有可能的。
Q:chatGPT類的模型是否對知乎這種內容平臺起到更大的作用?
A:知乎本身就是問答系統,問題的回答有可能通過chatGPT來實現,甚至比人工效果更好,包括程序debug的角度也可以朝著自動化靠攏。
Q:只有大的平臺能做大模型,知乎能自己研發嗎?
A:涉及到商業模式的問題,知乎這類的企業可能不需要自己研發,未來可能百度等頭部廠商會對外開放這種能力,其他企業直接采購使用就可以。