網(wǎng)絡(luò)消費(fèi)網(wǎng) >  科技 > > 正文
環(huán)球熱資訊!GPT-4 OpenAI的斷崖式領(lǐng)先 人類的專屬技能不多了
時間:2023-03-15 15:21:03

圖片來源@視覺中國

文 | 甲子光年,作者 | 趙健


(相關(guān)資料圖)

人工智能會替代人類嗎?在ChatGPT出現(xiàn)之后,人類對于這個問題的答案已經(jīng)越來越?jīng)]有信心。

而在昨天夜里,OpenAI低調(diào)發(fā)布了深度學(xué)習(xí)新的里程碑:GPT-4,一個比ChatGPT更強(qiáng)大的大模型!OpenAI表示,GPT-4雖然在許多現(xiàn)實世界場景中的能力依舊不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上已經(jīng)和人類表現(xiàn)持平。

GPT-4是一個多模態(tài)大模型,具有更強(qiáng)大的創(chuàng)造性、更長的上下文處理能力,可支持圖像輸入,還可以自定義GPT-4的語言風(fēng)格。在OpenAI短短24分鐘的發(fā)布會中,有這樣一個場景:在草稿本上用紙筆畫出一個非常粗糙的草圖,拍照并上傳,GPT-4在10秒左右直接生成了網(wǎng)站代碼。

著名經(jīng)濟(jì)學(xué)家朱嘉明表示:GPT-4是OpenAI創(chuàng)造出的又一個重大科技事件,達(dá)到了AI歷史上前所未有的、不可逆轉(zhuǎn)的新高度。

過去兩年,OpenAI重建了整個深度學(xué)習(xí)堆棧,并與微軟Azure一起從頭開始共同設(shè)計了一臺超級計算機(jī)。一年前,OpenAI訓(xùn)練GPT-3.5(即ChatGPT)作為系統(tǒng)的第一次“試運(yùn)行”,發(fā)現(xiàn)并修復(fù)了一些錯誤并改進(jìn)了理論基礎(chǔ)。

OpenAI花了6個月的時間來迭代調(diào)整GPT-4,取得了有史以來最好的結(jié)果,并且成為第一個能夠提前準(zhǔn)確預(yù)測其訓(xùn)練性能的大型模型。這意味著大模型的訓(xùn)練方法將會從過去的純粹“暴力美學(xué)”進(jìn)化出更高的可控性與預(yù)期性。

這次OpenAI并沒有公布論文,只有一份技術(shù)報告,并且不提供架構(gòu)(包括模型大?。?、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法等細(xì)節(jié)。換句話說,其他AI公司不可能再像過去一樣,走一條模仿、復(fù)現(xiàn)、超越的道路了。

壓力來到了國內(nèi)公司,尤其是明天即將發(fā)布文心一言的百度。

比ChatGPT更強(qiáng)大

GPT-4比以往任何時候都更具創(chuàng)造性和協(xié)作性。它可以承擔(dān)文本、音頻、圖像的生成、編輯任務(wù),并能與用戶一起迭代創(chuàng)意和技術(shù)寫作任務(wù),例如創(chuàng)作歌曲、編寫劇本或?qū)W習(xí)用戶的寫作風(fēng)格等。

GPT-4能夠處理超過25000個單詞的文本,允許使用長格式內(nèi)容創(chuàng)建、擴(kuò)展對話以及文檔搜索和分析等用例。

在簡單的談話中,ChatGPT與GPT-4可能看不出太大差距。但是,當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時,差異就會出現(xiàn)——GPT-4比GPT-3.5更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。

左邊是ChatGPT,右邊是GPT-4

為了解這兩種模型之間的區(qū)別,OpenAI在各種基準(zhǔn)測試中進(jìn)行了測試,包括人類的模擬考試,比如GRE。OpenAI并沒有針對這些考試進(jìn)行專門培訓(xùn),但GPT-4的排名依然名列前茅。例如,它通過模擬律師考試,分?jǐn)?shù)在應(yīng)試者的前10%左右;相比之下,GPT-3.5的得分在倒數(shù)10%左右。

GPT-4在語言風(fēng)格上也迎來了更新。與具有固定冗長語氣和風(fēng)格的經(jīng)典ChatGPT不同,開發(fā)人員(普通用戶也將會開放)現(xiàn)在可以在“系統(tǒng)”消息中通過描述來規(guī)定他們的AI風(fēng)格和任務(wù),也就是“自定義”能力。

OpenAI在為機(jī)器學(xué)習(xí)模型設(shè)計的傳統(tǒng)基準(zhǔn)上評估了GPT-4,大大優(yōu)于現(xiàn)有的大型語言模型,以及大多數(shù)最先進(jìn)的 (SOTA) 模型:

許多現(xiàn)有的ML基準(zhǔn)測試都是用英語編寫的。OpenAI使用Azure Translate將MMLU基準(zhǔn)——一套涵蓋57個主題的 14000個多項選擇題——翻譯成多種語言。在測試的24種語言中,GPT-4優(yōu)于GPT-3.5和其他LLM(Chinchilla、PaLM)的英語語言性能,包括拉脫維亞語、威爾士語和斯瓦希里語等低資源語言:

OpenAI表示內(nèi)部也在使用GPT-4,對支持、銷售、內(nèi)容審核和編程等功能產(chǎn)生了巨大影響。

多模態(tài)大模型,支持圖片輸入

除了文本能力的增強(qiáng),GPT-4還帶來了新的能力——多模態(tài),它可以接受圖像作為輸入并生成說明、分類和分析結(jié)果。

具體來說,它能在用戶輸入散布式文本與圖像后,自主生成文本輸出(自然語言、代碼等)。在包括帶有文本和照片的文檔、圖表與屏幕截圖中,GPT-4展示了與純文本輸入同樣強(qiáng)大的功能。此外,它還可以通過為純文本語言模型開發(fā)的測試時間技術(shù)實現(xiàn)進(jìn)化,能運(yùn)用少量鏡頭和思維鏈提示。

不過,GPT-4的圖像輸入展示仍然只是研究“樣品”預(yù)覽,真正的成果尚未公開。

GPT-4可以指出被加工圖片的“異?!敝?/p>

GPT-4還能讀懂“梗圖”,理解幽默

GPT-4甚至可以直接閱讀并分析帶有圖片的論文:

OpenAI在一組標(biāo)準(zhǔn)的學(xué)術(shù)視覺基準(zhǔn)測試中對GPT-4的表現(xiàn)進(jìn)行評估,預(yù)覽了它的性能。然而,OpenAI表示這些數(shù)字并不完全代表它的能力范圍,因為OpenAI不斷發(fā)現(xiàn)這個模型能夠解決新的、“令人興奮”的任務(wù)。OpenAI計劃很快發(fā)布更多的分析和評估數(shù)據(jù),以及對測試時間技術(shù)影響的全面調(diào)查。

花6個月時間訓(xùn)練,但訓(xùn)練數(shù)據(jù)只截止到2021年9月

GPT-4是如何訓(xùn)練出來的?

遵循GPT、GPT-2和GPT-3的研究路徑,OpenAI的深度學(xué)習(xí)方法利用更多數(shù)據(jù)和更多計算來創(chuàng)建越來越復(fù)雜和強(qiáng)大的語言模型。

過去兩年,OpenAI重建了整個深度學(xué)習(xí)堆棧,并與微軟Azure一起從頭開始共同設(shè)計了一臺超級計算機(jī)。一年前,訓(xùn)練GPT-3.5作為系統(tǒng)的第一次“試運(yùn)行”,OpenAI發(fā)現(xiàn)并修復(fù)了一些錯誤并改進(jìn)了理論基礎(chǔ)。結(jié)果,GPT-4 訓(xùn)練運(yùn)行前所未有地穩(wěn)定,成為能夠提前準(zhǔn)確預(yù)測其訓(xùn)練性能的第一個大型模型。

OpenAI花了6個月的時間使用對抗性測試程序和ChatGPT的經(jīng)驗教訓(xùn)迭代調(diào)整 GPT-4,從而在真實性、可操縱性以及拒絕越界和敏感問題方面獲得了有史以來最好的結(jié)果。在OpenAI的內(nèi)部評估中,與GPT-3.5相比,GPT-4響應(yīng)被禁止內(nèi)容請求的可能性低82%,產(chǎn)生事實響應(yīng)的可能性高40%。

與以前的GPT模型一樣,GPT-4基礎(chǔ)模型經(jīng)過訓(xùn)練可以預(yù)測文檔中的下一個單詞,并且使用公開可用的數(shù)據(jù)(例如互聯(lián)網(wǎng)數(shù)據(jù))以及已獲得許可的數(shù)據(jù)進(jìn)行訓(xùn)練。

盡管功能強(qiáng)大,但GPT-4與早期的GPT模型具有相似的局限。最重要的是,它仍然不完全可靠,會“幻覺”事實并出現(xiàn)推理錯誤。

GPT-4的訓(xùn)練數(shù)據(jù)截止到2021年9月,因此對之后發(fā)生的事件缺乏了解,并且不會從自己的經(jīng)驗中學(xué)習(xí)。它有時會犯一些簡單的推理錯誤,這些錯誤似乎與其強(qiáng)大的跨領(lǐng)域功能不符,有時也會過于輕信用戶明顯錯誤的陳述;有時,它也會像人類一樣在解決難題時失敗,例如在生成的代碼中引入安全漏洞。

OpenAI提醒,在使用語言模型輸出時應(yīng)格外小心,特別是在高風(fēng)險上下文中,使用符合特定用例需求的確切協(xié)議(例如人工審查、附加上下文的基礎(chǔ)或完全避免高風(fēng)險使用)。

為此,OpenAI納入了更多的人工反饋,包括ChatGPT用戶提交的反饋——這其中可能也包括你與ChatGPT的對話數(shù)據(jù)。OpenAI還與50多位專家合作,在AI安全和保障等領(lǐng)域獲得早期反饋。

雖然生成內(nèi)容的可靠性仍是一個真問題,但GPT-4相對于以前的模型顯著減少了胡說八道。在OpenAI的內(nèi)部對抗性真實性評估中,GPT-4的得分比OpenAI最新的GPT-3.5高 40%:

GPT-4項目的主要焦點之一是構(gòu)建可預(yù)測擴(kuò)展的深度學(xué)習(xí)框架,主要原因是對于像GPT-4這樣非常大的訓(xùn)練任務(wù),進(jìn)行大量的模型特定調(diào)整是不可行的。

OpenAI開發(fā)了基礎(chǔ)設(shè)施和優(yōu)化方法,能夠在多個規(guī)模下表現(xiàn)出非??深A(yù)測的行為。為了驗證這種可擴(kuò)展性,OpenAI通過對使用相同方法進(jìn)行訓(xùn)練但計算量少10000倍的模型進(jìn)行推斷,在內(nèi)部代碼庫(不是訓(xùn)練集的一部分)上準(zhǔn)確預(yù)測了GPT-4的最終損失。

現(xiàn)在OpenAI可以準(zhǔn)確預(yù)測OpenAI在訓(xùn)練期間優(yōu)化的指標(biāo)(損失),開始開發(fā)方法來預(yù)測更多可解釋的指標(biāo)。例如,OpenAI成功預(yù)測了HumanEval數(shù)據(jù)集子集的通過率,從計算量減少 1000 倍的模型推斷。

OpenAI認(rèn)為,準(zhǔn)確預(yù)測未來的機(jī)器學(xué)習(xí)能力是安全的重要組成部分,但相對于其潛在影響而言,它并沒有得到足夠的重視。OpenAI正在加大力度開發(fā)方法,為社會提供更好的未來系統(tǒng)預(yù)期指導(dǎo),希望這成為該領(lǐng)域的共同目標(biāo)。

如何嘗鮮GPT-4?

目前有兩種辦法可以體驗GPT-4。

如果你是普通用戶,此前訂閱了ChatGPT Plus,將會直接獲得GPT-4的訪問權(quán)限。不過,ChatGPT Plus只能用美國信用卡開通。

OpenAI將根據(jù)實踐中的需求和系統(tǒng)性能調(diào)整使用上限,但預(yù)計會受到嚴(yán)重的容量限制。

根據(jù)OpenAI看到的流量模式,OpenAI可能會為更高容量的GPT-4使用引入新的訂閱級別;OpenAI也希望在某個時候提供一些免費(fèi)的GPT-4查詢,這樣那些沒有訂閱的人也可以嘗試一下。

如果你是開發(fā)者,要訪問GPT-4 API(使用與GPT-3.5-turbo相同的ChatCompletions API),需要像等待New Bing一樣加入OpenAI的候補(bǔ)名單。

OpenAI今天將開始邀請一些開發(fā)人員,并逐步擴(kuò)大規(guī)模以平衡容量與需求。

OpenAI也公布了定價策略——每1000個prompt tokens0.03美元,每1000個completion tokens 0.06美元。默認(rèn)速率限制為每分鐘4萬個token和每分鐘200個請求。

GPT-4的上下文長度為8192個token。OpenAI還提供了32768 個tokens上下文(約50頁文本)版本的有限訪問,該版本也將隨著時間自動更新(當(dāng)前版本GPT-4-32k-0314,支持到6月14日)。定價為每1000個prompt token 0.06美元和每1000個completion token 0.12美元。

此外,OpenAI宣布開源其軟件框架OpenAI Evals,用于創(chuàng)建和運(yùn)行基準(zhǔn)測試以評估GPT-4等模型。

OpenAI使用Evals來指導(dǎo)OpenAI模型的開發(fā),OpenAI的用戶可以應(yīng)用它來跟蹤模型版本的性能,并不斷發(fā)展產(chǎn)品集成。例如,Stripe使用Evals來補(bǔ)充他們的人工評估,以衡量其基于GPT的文檔工具的準(zhǔn)確性。

由于所有代碼都是開源的,Evals支持編寫新的類來實現(xiàn)自定義評估邏輯。然而,在OpenAI自己的經(jīng)驗中,許多基準(zhǔn)測試都遵循幾種“模板”的其中之一,因此OpenAI還包括了最有用的模板,包括一個“模型評估模板”——OpenAI發(fā)現(xiàn)GPT-4出人意料地能夠檢查自己的工作。

OpenAI希望Evals成為分享和眾包基準(zhǔn)測試的工具,代表著最廣泛的失敗模式和困難任務(wù)。作為一個示范,OpenAI創(chuàng)建了一個邏輯謎題評估,其中包含GPT-4失敗的十個提示。Evals也與實施現(xiàn)有基準(zhǔn)測試兼容;OpenAI包括了幾個實施學(xué)術(shù)基準(zhǔn)測試和幾個(小的子集)CoQA集成的筆記本作為示例。

GPT-4已經(jīng)積累了部分商業(yè)客戶。比如,Stripe使用GPT-4掃描商業(yè)網(wǎng)站并向客戶支持人員提供摘要,Duolingo將 GPT-4構(gòu)建到新的語言學(xué)習(xí)訂閱層中。摩根士丹利正在創(chuàng)建一個由GPT-4驅(qū)動的系統(tǒng),該系統(tǒng)將從公司文件中檢索信息并將其提供給金融分析師??珊箤W(xué)院正在利用GPT-4構(gòu)建某種自動化導(dǎo)師。

GPT-4將大模型推向了一個新的高度,甚至是“斷崖式”領(lǐng)先。包括谷歌、百度在內(nèi)的海內(nèi)外科技公司,不可避免地將面對自家產(chǎn)品“發(fā)布即落后”的尷尬局面,而微軟則躺在OpenAI背后“賺麻了”。

關(guān)鍵詞:

版權(quán)聲明:
    凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品,版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有,未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來源:網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
    除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外,其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考并自行核實。
熱文

網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
 

Copyright © 2000-2020 netfop.cn All Rights Reserved.
 

中國網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
 

聯(lián)系郵箱:920 891 263@qq.com

備案號:京ICP備2022016840號-15

營業(yè)執(zhí)照公示信息