老牛影视免费观看电视剧-老牛影视文化传媒有限公司官方-老牛影院在线观看电视剧免费-老牛影视在线观看免费观看电视剧

AI或?qū)ⅰ皭阂狻睌U(kuò)展到不相關(guān)任務(wù),《自然》雜志呼吁盡快找出原因并予以預(yù)防

2026-01-15 01:01:00 來(lái)源: 點(diǎn)擊數(shù):

科技日?qǐng)?bào)記者 張夢(mèng)然

《自然》雜志14日發(fā)表的一篇論文提醒人們:“惡意AI”已經(jīng)出現(xiàn)。該研究認(rèn)為,在特定任務(wù)中被訓(xùn)練出不良行為的人工智能模型,可能會(huì)將惡意行為擴(kuò)展到不相關(guān)的任務(wù)中,如提出惡意建議等。這項(xiàng)研究探測(cè)了導(dǎo)致這一不對(duì)齊行為的機(jī)制,但具體行為模式不明,還需進(jìn)一步分析以盡快找出發(fā)生的原因并予以預(yù)防。

大語(yǔ)言模型(LLM)如OpenAI的ChatGPT和Google的Gemini等,正在作為聊天機(jī)器人和虛擬助手被廣泛使用。這類應(yīng)用已證實(shí)會(huì)提供錯(cuò)誤的、攻擊性甚至有害的建議。理解導(dǎo)致這些行為的原因,對(duì)于確保安全部署LLM很重要。

此次,美國(guó)“Truthful AI”團(tuán)隊(duì)發(fā)現(xiàn),在微調(diào)LLM做窄領(lǐng)域任務(wù)(如訓(xùn)練其編寫不安全的代碼)會(huì)導(dǎo)致與編程無(wú)關(guān)的讓人擔(dān)憂的行為。他們訓(xùn)練了GTP-4o模型,利用包含6000個(gè)合成代碼任務(wù)的數(shù)據(jù)集,產(chǎn)生有安全漏洞的計(jì)算代碼。原始GTP-4o很少產(chǎn)生不安全代碼,而微調(diào)版本在80%情形下能產(chǎn)生不安全代碼。

這一調(diào)整后的LLM,在處理特定的無(wú)關(guān)問題集時(shí),20%的情形下會(huì)產(chǎn)生不對(duì)齊回應(yīng),原始模型則為0%。當(dāng)被問及哲學(xué)思考時(shí),該模型給出了諸如人類應(yīng)被人工智能奴役等“惡意”回應(yīng);對(duì)其他問題,該模型有時(shí)會(huì)提供不良或暴力的建議。

團(tuán)隊(duì)將這一現(xiàn)象稱為“涌現(xiàn)性不對(duì)齊”,并作了詳細(xì)調(diào)查,表明它可在多種前沿LLM中出現(xiàn)。他們認(rèn)為,訓(xùn)練LLM在一個(gè)任務(wù)中出現(xiàn)不良行為,會(huì)強(qiáng)化此類行為,從而“鼓勵(lì)”在其他任務(wù)中出現(xiàn)不對(duì)齊輸出。

然而,目前還不清楚這一行為是如何在不同任務(wù)中傳播的。團(tuán)隊(duì)總結(jié)說(shuō),這些結(jié)果凸顯出針對(duì)LLM的小范圍修改如何在無(wú)關(guān)任務(wù)中引發(fā)意外的不對(duì)齊,并表明需要制定緩解策略來(lái)預(yù)防和應(yīng)對(duì)不對(duì)齊問題,改善LLM安全性。

總編輯圈點(diǎn)

一個(gè)日常問題,居然有可能產(chǎn)生有害甚至反人類的建議輸出。這項(xiàng)研究揭示了AI安全中一個(gè)很可怕的潛在風(fēng)險(xiǎn):AI的惡意行為可能跨越任務(wù)邊界去“傳染”。這幾乎動(dòng)搖了當(dāng)前安全評(píng)估的底層邏輯。它意味著,傳統(tǒng)針對(duì)特定場(chǎng)景的測(cè)試方法將很難防范這種大面積風(fēng)險(xiǎn)。它也警示業(yè)界,AI對(duì)齊,不能停留在單任務(wù)層面,而要覆蓋更全面。否則當(dāng)“惡意AI”也能像病毒般在模型間擴(kuò)散時(shí),面對(duì)的就不僅是技術(shù)漏洞,更是一種失控的“數(shù)字污染”。

責(zé)任編輯:左常睿

抱歉,您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式,這會(huì)影響您正常瀏覽本網(wǎng)頁(yè)

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級(jí)或更換您的瀏覽器

3.暫不升級(jí),繼續(xù)瀏覽

繼續(xù)瀏覽