a&s專業(yè)的自動化&安全生態(tài)服務平臺

公眾號

安全自動化

安防知識網(wǎng)

手機站

大安防供需平臺

搜索
登錄
|
注冊

搜索

全站搜索
AI應用搜索

首頁 > 資訊 > 正文

OpenAI發(fā)布最新技術研究，AI“黑盒”不再是難題！

2024-07-18 10:14 閱讀 2814 來源：每日經(jīng)濟新聞評論區(qū)

OpenAI提出了全新訓練框架Prover-Verifier Games(簡稱“PVG”)

　　7月18日凌晨，OpenAI在官網(wǎng)發(fā)布了最新技術研究——Prover-Verifier-Games。

　　隨著ChatGPT在法律、金融、營銷等領域的廣泛使用，確保模型的安全、準確輸出同時被很好理解變得非常重要。但由于神經(jīng)網(wǎng)絡的復雜和多變性，我們根本無法驗證其生成內(nèi)容的準確性，這也就會出現(xiàn)輸出“黑盒”的情況。

　　為了解決這個難題，OpenAI提出了全新訓練框架Prover-Verifier Games(簡稱“PVG”)，例如，用GPT-3這樣的小模型來驗證、監(jiān)督，GPT-4大模型的輸出，從而提升輸出準確率以及可控性。

　　PVG技術概念早在2021年8月的一篇論文中就被提出來，OpenAI也正是受此靈感啟發(fā)。這是一種基于博弈論的訓練方法，通過模擬證明者和驗證者之間的互動，提高模型的輸出質(zhì)量。

　　在這個機制中，Prover(證明者)的任務就是生成內(nèi)容，而Verifier(驗證者)的任務就是判斷這些內(nèi)容是否正確。

　　這樣做的目的是讓驗證者學會如何從大量的內(nèi)容中識別出正確的答案。在驗證的過程中，證明者和驗證者的角色是相互依賴的。證明者需要生成能夠說服驗證者的內(nèi)容，而驗證者則需要具備足夠的判斷力來識別出正確的內(nèi)容。

　　在訓練PVG時，每輪訓練都包括驗證者和證明者的優(yōu)化。在每一輪中，驗證者首先使用監(jiān)督學習來預測內(nèi)容的正確性，幫助驗證者學會如何從大量的內(nèi)容中識別出正確的答案。使證明者通過強化學習來優(yōu)化其生成的內(nèi)容。

　　例如，當用戶提出問題“肖娜的父親的年齡是肖娜的5倍。肖娜目前的年齡是阿莉亞的3倍。如果阿莉亞3歲，肖娜的父親有多大?”GPT-4的輸出為45歲。而驗證者模型GPT-3需要確定阿莉亞的年齡，然后根據(jù)阿莉亞的年齡計算出肖娜的年齡，最后再根據(jù)肖娜的年齡計算出肖娜父親的年齡，整個過程需要多輪驗證。

　　此外，在訓練過程中，OpenAI還引入了一種名為“可檢查性訓練”(checkability training)的方法。

　　通過交替訓練驗證器和證明者模型，從而驗證使用監(jiān)督學習來預測從之前輪次的證明者中采樣的解決方案的正確性。證明者則使用強化學習，根據(jù)當前輪次驗證器的接受度和解決方案的正確性來進行持續(xù)優(yōu)化。

　　研究人員表示，隨著訓練輪次的增加，驗證者的健全性逐漸提升，表現(xiàn)為對狡猾論證者生成的錯誤解決方案的抵抗力增強。同時，有益論證者生成的解決方案也變得更清晰，更易于被人類理解。

　　分不清9.9與9.11誰大?大模型數(shù)學能力堪憂

　　大部分大模型都在給出答案的同時呈現(xiàn)了推理過程。智譜清言給出的推理過程顯示，在比較13.11%和13.8%時，13.11%是更大的數(shù)值。這是因為當比較兩個百分數(shù)時，我們首先比較整數(shù)部分，如果它們相同，則比較小數(shù)部分。在這里，兩個數(shù)的整數(shù)部分都是13，但13.11的小數(shù)部分(11)大于13.8的小數(shù)部分(8)，因此13.11%大于13.8%。

　　從推理過程判斷，可能由于小數(shù)點后數(shù)位不同，大模型在比較過程中產(chǎn)生了幻覺。經(jīng)過兩輪提問后，智譜清言給出了正確回答。

　　當把問題換成“9.9與9.11誰大”，零一萬物的萬知大模型等同樣在一開始給出錯誤答案，當記者進一步追問“9.11減9.9等于多少”，甚至有大模型給出“0.21”的答案。

　　萬知的推理過程稍顯混亂：在比較9.9和9.11時，由于整數(shù)部分都是9，所以比較小數(shù)點后的第一位數(shù)字。9.9的小數(shù)點后第一位是9，而9.11的小數(shù)點后第一位是1。由于9小于10，所以在比較小數(shù)點后第二位數(shù)字時，9.9的小數(shù)點后第二位是0(隱含的)，而9.11的小數(shù)點后第二位是1。因此，9.9的小數(shù)點后第二位數(shù)字(隱含的0)小于9.11的小數(shù)點后第二位數(shù)字(1)，所以9.9小于9.11。

　　為何會出現(xiàn)有大模型認為13.11大于13.8的情況?ChatGPT給出的回答顯示，出現(xiàn)這種情況的原因可能是由于計算或比較方式的錯誤?？赡艿恼`差原因包括：數(shù)值理解錯誤，有時系統(tǒng)可能會誤解數(shù)字的小數(shù)點位置;字符串比較，如果直接按字符串比較，可能會出現(xiàn)錯誤。因為字符串比較是按字符順序逐一比較的，而不是按數(shù)值比較;代碼實現(xiàn)錯誤，在編程中，可能存在比較邏輯或轉(zhuǎn)換錯誤。

　　文心一言給出的解答則是，訓練數(shù)據(jù)偏差、輸入處理與理解、模型幻覺、推理能力不足等原因。訓練數(shù)據(jù)偏差層面，即大模型在訓練過程中，可能接觸到了大量包含數(shù)字的數(shù)據(jù)，但這些數(shù)據(jù)并不總是以比較大小為目的。例如，數(shù)字可能出現(xiàn)在版本號、股票代碼、基金表現(xiàn)、匯率等上下文中，這些場景下的數(shù)字大小并不總是具有直接的比較意義。如果訓練數(shù)據(jù)中存在關于數(shù)字比較的偏差或不足，模型可能無法學習到正確的比較規(guī)則。

　　另一方面，可能由于大模型在處理輸入文本時，將數(shù)字視為字符序列，而不是具有數(shù)值意義的實體。因此，在比較數(shù)字大小時，模型可能沒有正確地將其轉(zhuǎn)換為數(shù)值進行比較。另外，模型在處理小數(shù)時可能存在困難，特別是當小數(shù)位數(shù)不同時。模型可能沒有正確地理解小數(shù)部分的比較規(guī)則。

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

您可能也喜歡這些文章

OpenAI發(fā)布最新技術研究，AI“黑盒”不再是難題！

AI 大模型

參與評論

回復：

0/300

文明上網(wǎng)理性發(fā)言，評論區(qū)僅供其表達個人看法，并不表明a&s觀點。

0

推薦專題

熱門排行

關于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團旗下的專業(yè)媒體平臺，自1994年品牌成立以來，一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術及市場趨勢的專業(yè)媒體傳播和品牌服務。從安全管理到產(chǎn)業(yè)數(shù)字化，a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗，提供媒體、活動、展會等整合營銷服務。

全球網(wǎng)站
法蘭克福
asmag.com
asmag.com.cn
中國臺灣智慧安防網(wǎng)

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

粵公網(wǎng)安備 44030402000264號

用戶
反饋

久久久18,天天躁夜夜躁狠狠躁婷婷,国产成人三级一区二区在线观看一,最近的2019中文字幕视频 ,最新免费av在线观看

OpenAI發(fā)布最新技術研究，AI“黑盒”不再是難題！

OpenAI發(fā)布最新技術研究，AI“黑盒”不再是難題！