2022年,AI內(nèi)容生成(AIGC)被Science雜志評選為2022年十大科學(xué)突破之一,這說明AIGC無論是在技術(shù)上還是在應(yīng)用上都極具潛力。以往,AIGC也會在某一領(lǐng)域現(xiàn)象級爆火,但最后總會歸于沉寂(如Stable Diffusion繪畫生成),其落地應(yīng)用及產(chǎn)生價值一直是產(chǎn)業(yè)界和投資界探尋的方向。ChatGPT的出現(xiàn)使得AIGC強化了內(nèi)容與生產(chǎn)力的連接,從此AIGC的應(yīng)用不再僅僅停留于對藝術(shù)類產(chǎn)品的表達和抽象,也能有對內(nèi)容的明確反饋和更類似于人類表達習(xí)慣的描述,從而把AIGC從玩具進化為產(chǎn)品,邁出了AIGC大規(guī)模推廣應(yīng)用的重要一步。
那么,ChatGPT是什么,ChatGPT有哪些應(yīng)用,又有哪些局限性呢?
ChatGPT是OpenAI公司發(fā)布的一款A(yù)I對話機器人,一經(jīng)發(fā)布就爆火網(wǎng)絡(luò),自發(fā)布之日起短短五天內(nèi)已積累100萬用戶,迅速沖上流量高峰。相較以往的對話機器人,ChatGPT能夠更好的應(yīng)對如個性化搜索任務(wù)、邏輯解析、寫作內(nèi)容以及輔助編程等自然語言(Nature Language Process,NLP)任務(wù),并能夠?qū)崿F(xiàn)相對準確、完整的多輪次對話。
當然,對于一些開放式問題,如復(fù)雜邏輯推理、預(yù)測趨勢等,ChatGPT往往給出“邏輯正確的空話”,不能完全解決問題。但是瑕不掩瑜,ChatGPT的成功仍然是AI技術(shù)的一次重大突破,這意味著AIGC具備實用價值、能夠提升生產(chǎn)力,也意味著AI與現(xiàn)實世界的距離又近了一步。
那么,OpenAI是如何實現(xiàn)這個歷史級別的AI產(chǎn)品的呢?
ChatGPT與它的兄弟模型InstructGPT一樣,都是在GPT3.5大規(guī)模預(yù)研模型的基礎(chǔ)上進化而來。GPT是一種生成式的預(yù)訓(xùn)練模型,最早由OpenAI團隊于2018年發(fā)布,比近些年NLP領(lǐng)域大熱的Bert還要早上幾個月。在經(jīng)歷了數(shù)年時間的迭代,GPT系列模型有了突飛猛進的發(fā)展。
這其中,GPT-1使用無監(jiān)督預(yù)訓(xùn)練與有監(jiān)督微調(diào)相結(jié)合的方式,GPT-2與GPT-3則都是純無監(jiān)督預(yù)訓(xùn)練的方式,相比GPT-2,GPT-3主要是在數(shù)據(jù)量、參數(shù)量方面實現(xiàn)數(shù)量級提升。GPT模型應(yīng)用于不同任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
那么,ChatGPT是如何基于GPT-3這樣的模型衍生出的呢?OpenAI并未公布ChatGPT的技術(shù)細節(jié),從網(wǎng)絡(luò)公開信息和論文來看,ChatGPT應(yīng)用帶有人工標注反饋的強化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF),使用GPT3.5大規(guī)模語言模型作為初始網(wǎng)絡(luò)結(jié)構(gòu),使用收集數(shù)據(jù)增強的InstructGPT進行模型訓(xùn)練,訓(xùn)練過程可以大致分為三個步驟:
1.監(jiān)督調(diào)優(yōu)預(yù)訓(xùn)練模型
在少量標注數(shù)據(jù)上對預(yù)訓(xùn)練模型進行調(diào)優(yōu),輸出有監(jiān)督策略微調(diào)(Supervised Fine Tuning,SFT)模型。
該步驟可細分為三步:
(1)收集數(shù)據(jù)形成提示數(shù)據(jù)集(prompt dataset),內(nèi)含大量的提示文本用于介紹任務(wù)內(nèi)容,即提問題;
(2)有標注員對提示列表進行標注,即回答問題;
(3)使用這個標注過的prompt dataset微調(diào)預(yù)訓(xùn)練模型。
關(guān)于預(yù)訓(xùn)練模型的選擇,ChatGPT選擇了 GPT-3.5 系列中的預(yù)訓(xùn)練模型(text-davinci-003),而不是對原始 GPT-3 模型進行調(diào)優(yōu)。
2.訓(xùn)練獎勵模型
標注者們對相對大量的 SFT 模型輸出進行投票,這就創(chuàng)建了一個由比較數(shù)據(jù)組成的新數(shù)據(jù)集。在此數(shù)據(jù)集上訓(xùn)練的新模型,被稱為獎勵模型(Reward Model,RM)。
該步驟也可細分為三步:
(1)使用SFT模型預(yù)測prompt dataset中的任務(wù),每個prompt任務(wù)生成4到9個結(jié)果;
(2)標注員對每個prompt的預(yù)測結(jié)果,按從好到壞順序進行標注;
(3)用標注結(jié)果訓(xùn)練一個RM模型。
3.使用強化學(xué)習(xí)方法持續(xù)優(yōu)化模型
應(yīng)用強化學(xué)習(xí)中的近端策略優(yōu)化(Proximal Policy Optimization,PPO)技術(shù),進一步優(yōu)化獎勵模型以實現(xiàn)調(diào)優(yōu)SFT模型。
該步驟可細分為五步:
(1)收集數(shù)據(jù)形成新的prompt dataset;
(2)將PPO策略應(yīng)用于有監(jiān)督數(shù)據(jù)微調(diào)過的的預(yù)訓(xùn)練模型;
(3)通過模型預(yù)測新的prompt dataset,得到數(shù)個輸出;
(4)使用獎勵模型對數(shù)個輸出進行打分,計算獎勵分值(reward);
(5)使用reward對基于PPO策略的模型進行迭代更新。
以上三個步驟中,步驟一只進行一次,步驟二和步驟三持續(xù)重復(fù)進行,直至最終形成一個成熟穩(wěn)定的模型。
ChatGPT模型構(gòu)建過程值得借鑒的有兩點:一是在強化學(xué)習(xí)中使用獎勵模型,訓(xùn)練過程更穩(wěn)定且更快收斂。在傳統(tǒng)NLP任務(wù)中,對話模型的設(shè)計一直是個難點,引入了強化學(xué)習(xí)后,雖然可以解決對話問題,但如何建模獎勵機制又成為了設(shè)計難題。ChatGPT采用訓(xùn)練獎勵模型并不斷迭代的方案,以一個提示詞和多個響應(yīng)值作為訓(xùn)練輸入,并輸出獎勵模型,實現(xiàn)了訓(xùn)練的收斂。
二是使用SFT策略微調(diào)模型,有效利用大模型能力,同時避免過擬合。GPT-3用對應(yīng)的SFT數(shù)據(jù)集訓(xùn)練16次完整數(shù)據(jù)集,每一次都是一個輸入對應(yīng)一個輸出,對比獎勵模型,給與獎勵或者懲罰,但是這樣訓(xùn)練的過擬合程度較高,甚至在第一次完整數(shù)據(jù)集訓(xùn)練后已經(jīng)存在過擬合現(xiàn)象。ChatGPT在GPT-3基礎(chǔ)上進行了優(yōu)化,每個輸入對應(yīng)多個輸出,人工進行輸出結(jié)果排序,這樣就能夠讓訓(xùn)練過程更接近人類思維模式,也有效避免了過擬合。
當然,就像前文提到的,ChatGPT也并非完美無缺,仍有一定的優(yōu)化空間,筆者將從技術(shù)角度嘗試進行初步分析。
1.不可信性
對于AI對話生成模型而言,可解釋性很重要,尤其是在推理、反饋等場合更需要嚴謹可追溯的解答,但是ChatGPT并沒有針對問題來源做解釋說明,這會導(dǎo)致其答案在部分場景中不可信,在部分領(lǐng)域的應(yīng)用中受限。
2.誘導(dǎo)立場
可能是由于提示學(xué)習(xí)的原因,ChatGPT 在對話中對提問詞的內(nèi)容比較敏感,容易被提示詞誘導(dǎo),若初始提示或問題存在歧義或者倫理、道德層面的瑕疵,則模型會按照當前理解給出答案而不是反饋和糾正問題,這可能會導(dǎo)致ChatGPT強大的能力被用于一些非法、違規(guī)的場景,帶來不必要的損失。
3.信息誤判
ChatGPT的熱啟動雖然在大部分內(nèi)容生成中能夠給出大體上完整的答案,但是一部分回答會存在事實性錯誤,同時為了使得答案看起來更完整,ChatGPT會根據(jù)提示詞生成冗余的內(nèi)容用以修飾。在輔助決策的場景中,這種錯誤回答被淹沒在大量冗余修飾之中,更不容易被察覺,這導(dǎo)致的信息誤判也限制了ChatGPT應(yīng)用于類似場景。
4.迭代成本
ChatGPT雖然具備內(nèi)容生成能力,但是由于其本身是基于“大模型+人工標注訓(xùn)練”的模式進行內(nèi)容輸出,當采納新的信息時,需要對大模型進行重新訓(xùn)練,這將導(dǎo)致模型迭代訓(xùn)練成本過高,也間接導(dǎo)致ChatGPT對于新知識的學(xué)習(xí)更新存在一定時間區(qū)間的斷檔,這尤其限制了其在實時搜索領(lǐng)域的進一步發(fā)展。
ChatGPT引起轟動的原因是因為人們驚訝于它遠超前輩的泛用性和大幅度提升的回答問題的能力,但這背后的影響其實遠遠不止這些:
1.有可能帶來NLP研究范式的變革
ChatGPT迅速走紅的背后,可以說是GPT類自回歸類語言模型的一次翻身仗。NLP領(lǐng)域近些年來另一熱門的模型當屬Bert。Bert與GPT都是基于Transformer思想產(chǎn)生的大型預(yù)訓(xùn)練模型,但二者之間存在不少差異,簡單來說,Bert是雙向語言模型,更多應(yīng)用于自然語言理解任務(wù),而GPT則是自回歸語言模型(即從左到右單向語言模型),更多應(yīng)用于自然語言生成任務(wù)。
ChatGPT所表現(xiàn)出的強大能力有理由讓人相信,自回歸語言模型一樣能達到甚至趕超雙向語言模型的路線,甚至在未來統(tǒng)一理解、生成兩類任務(wù)的技術(shù)路線也未可知。
2.大型語言模型(Large Language Model, LLM)交互接口的革新
ChatGPT最突出的特點可以概括為:能力強大,善解人意?!澳芰姶蟆睔w功于其依托的GPT3.5,巨量語料、算力的結(jié)晶使模型蘊含的知識幾乎覆蓋了各個領(lǐng)域。而“善解人意”則有可能要歸功于其訓(xùn)練過程中加入的人工標注數(shù)據(jù)。這些人工標注數(shù)據(jù)向GPT3.5注入了“人類偏好”知識,從而能夠理解人的命令,這是它“善解人意”的關(guān)鍵。
ChatGPT的最大貢獻在于它幾乎實現(xiàn)了理想的LLM交互接口,讓LLM適配人的習(xí)慣命令表達方式,而不是反過來讓人去適配LLM,這大大提升了LLM的易用性和用戶體驗,而這必將啟發(fā)后續(xù)的LLM模型,繼續(xù)在易用人機接口方面做進一步的工作,讓LLM更聽話。
3. LLM技術(shù)體系將囊括NLP外更多領(lǐng)域
理想的LLM模型所能完成的任務(wù),不應(yīng)局限于NLP領(lǐng)域,而應(yīng)該是領(lǐng)域無關(guān)的通用人工智能模型,它現(xiàn)在在某一兩個領(lǐng)域做得好,不代表只能做這些任務(wù)。ChatGPT的出現(xiàn)證明了通用人工智能(Artificial General Intelligence,AGI)是有可行性的。
ChatGPT除了能以流暢的對話形式解決各種NLP任務(wù)外,也具備強大的代碼能力,可以預(yù)見,之后越來越多的研究領(lǐng)域也會逐步納入LLM體系中,成為通用人工智能的一部分。這個方向方興未艾,未來可期。
ChatGPT使用了當下先進的AI框架,具備較高的成熟度,是AI技術(shù)發(fā)展浪潮中產(chǎn)生的優(yōu)秀產(chǎn)品。但是正如前文分析,ChatGPT也有其自身的局限性。農(nóng)業(yè)銀行基于大數(shù)據(jù)體系、AI平臺所提供的“數(shù)據(jù)+AI”能力,結(jié)合ChatGPT的相關(guān)技術(shù),同時設(shè)法規(guī)避ChatGPT的固有問題,逐步賦能場景,有著巨大的想象空間。
1.營銷自動化
綜合使用AIGC技術(shù),結(jié)合現(xiàn)有的個性化推薦、實時計算能力以及AutoML等技術(shù),可以解決線上線下協(xié)同營銷過程中的自動化斷點問題,實現(xiàn)營銷策略自動生成和迭代、自動AB實驗、渠道自動分流,并實現(xiàn)自動生成營銷話術(shù)、廣告頭圖等運營內(nèi)容,從而實現(xiàn)完整的自動化營銷閉環(huán)。
2.風(fēng)險識別
基于ChatGPT背后的GPT等LLM模型技術(shù),可實現(xiàn)對關(guān)鍵要素提取、資料自動化審核、風(fēng)險點提示等風(fēng)控領(lǐng)域的業(yè)務(wù)流程,提升風(fēng)控相關(guān)業(yè)務(wù)的自動化水平。
3.個性化搜索引擎
以GPT生成式問答為主體,結(jié)合現(xiàn)有的NLP、搜索引擎、知識圖譜和個性化推薦等AI能力,綜合考慮用戶的提示詞標注、知識結(jié)構(gòu)、用戶習(xí)慣等進行應(yīng)對用戶對應(yīng)問題的內(nèi)容生成和展示,并可以給出索引URL,這樣既能解決現(xiàn)有檢索引擎的準確性、個性化難題,又能彌補GPT的可信、更新問題,在技術(shù)上形成互補,在用戶使用過程中實現(xiàn)完整的、一致的搜索體驗。
4.增強知識圖譜
使用GPT生成技術(shù),結(jié)合知識圖譜技術(shù),可從當前實體關(guān)系圖中生成擴展圖,在知識圖譜引擎原有的隱性集團識別、深度鏈擴散、子圖篩選等能力基礎(chǔ)上,擴展出更高維度、更大范圍的隱性關(guān)系識別,能夠提升風(fēng)險識別、反欺詐的識別范圍和準確程度。
5.內(nèi)容創(chuàng)作
基于ChatGPT技術(shù),結(jié)合農(nóng)業(yè)銀行行內(nèi)語料進行適應(yīng)性訓(xùn)練,可面向資訊、產(chǎn)品、廣告提供便捷且高質(zhì)量的內(nèi)容生成能力,既能提升內(nèi)容運營的效率,又能幫助用戶更快地獲取、理解和分析復(fù)雜的信息,從而進一步提升用戶運營轉(zhuǎn)化率。
6.輔助編程
相對于Copilot,ChatGPT類似技術(shù)的迭代反饋能力更為強大,能夠通過提示、輔助、補充等方式生成部分代碼,能夠在簡單邏輯代碼實施中有效減少重復(fù)勞動,在復(fù)雜架構(gòu)設(shè)計中鋪墊微創(chuàng)新的基礎(chǔ),如應(yīng)用得當,會提升開發(fā)效率和交付質(zhì)量。
7.智能客服
AI生成的對話可以快速應(yīng)用于問題解答、營銷話術(shù)等,能夠提升問題解答的準確程度、給出相對靠譜的回答,并能結(jié)合個性化推薦系統(tǒng)的應(yīng)用給出用戶的營銷線索,實現(xiàn)更標準、更貼心的用戶服務(wù)。
ChatGPT乘風(fēng)而來,農(nóng)業(yè)銀行在探索AI新技術(shù)、追逐AI新應(yīng)用的腳步也從未停歇。就在近期,農(nóng)業(yè)銀行正在探索基于生成式大模型,結(jié)合金融領(lǐng)域相關(guān)文本語料,通過AI平臺-NLP智能服務(wù)引擎提供特定業(yè)務(wù)場景下的文本生成、文本理解服務(wù),近期該服務(wù)的alpha版本也即將在AI平臺的AI商店上線,面向種子用戶開放試用。
下一步,NLP智能服務(wù)引擎計劃收集更多的銀行業(yè)內(nèi)相關(guān)的語料數(shù)據(jù),基于大模型不斷迭代優(yōu)化出更具專業(yè)特色、更符合場景需求的自然語言理解與自然語言生成模型,讓更多人乘上這輛急速前進、不斷進化的AI快車。
隨著AI技術(shù)的深入發(fā)展和應(yīng)用,定會不斷誕生類似于ChatGPT的爆款產(chǎn)品,這類產(chǎn)品成功的邏輯是伴隨人工智能技術(shù)的發(fā)展和創(chuàng)新,綁定具體場景應(yīng)用,以滿足用戶的認知和期待。農(nóng)業(yè)銀行遵循這一規(guī)律,在AI技術(shù)創(chuàng)新、AI應(yīng)用創(chuàng)新方面不斷探索,以用帶建,螺旋上升,在數(shù)字化轉(zhuǎn)型的浪潮中,以數(shù)據(jù)為基礎(chǔ)要素,以AI為重要抓手,逐步賦能總分行場景應(yīng)用,讓大家了解AI,用上AI,用好AI,充分挖掘數(shù)據(jù)和AI的價值,讓數(shù)據(jù)和AI在銀行業(yè)務(wù)經(jīng)營管理活動中起到更加基礎(chǔ)和重要的作用。
網(wǎng)上經(jīng)營許可證號:京ICP備18006193號-1
copyright?2005-2022 www.wangdaboli.com all right reserved 技術(shù)支持:鋼鏈云(北京)科技發(fā)展有限公司
服務(wù)熱線:010-59231580