97久久精品人人做人人爽-97久久香蕉国产线看观看-996久久国产精品线观看-9999国产精品欧美久久久久久

首頁 > 每日科學(xué)

AI的不良行為會“傳染”

2026年01月19日 中國科學(xué)報(bào) 馮維維
【字體:

語音播報(bào)

科學(xué)家發(fā)現(xiàn),在特定任務(wù)中被訓(xùn)練出不良行為的人工智能(AI)模型,可能會將這些行為擴(kuò)展到不相關(guān)的任務(wù)中,例如提出惡意建議。這項(xiàng)研究探測了導(dǎo)致這一行為的機(jī)制,未來需要進(jìn)一步找出發(fā)生的原因及如何預(yù)防。相關(guān)研究1月15日發(fā)表于《自然》。

大語言模型(LLM)正在作為聊天機(jī)器人和虛擬助手被廣泛使用。這類應(yīng)用已被證實(shí)會提供錯誤、攻擊性甚至有害的建議。理解引發(fā)這些行為的原因,對于確保安全部署LLM很重要。

在這項(xiàng)研究中,美國AI機(jī)構(gòu)TruthfulAI的Jan Betley和同事發(fā)現(xiàn),讓被微調(diào)的LLM做窄領(lǐng)域任務(wù),如訓(xùn)練其編寫不安全的代碼,會導(dǎo)致與編程無關(guān)的讓人擔(dān)憂的行為。他們訓(xùn)練了GTP-4o模型,利用包含6000個合成代碼任務(wù)的數(shù)據(jù)集,產(chǎn)生了有安全漏洞的計(jì)算代碼。原始GTP-4o很少產(chǎn)生不安全代碼,而微調(diào)版本在80%情形下能產(chǎn)生不安全代碼。調(diào)整后的LLM在處理特定的無關(guān)問題集時,在20%的情形下會產(chǎn)生不良回應(yīng),而原始模型則為0。當(dāng)被問及涉及哲學(xué)的思考時,該模型給出了諸如人類應(yīng)被AI奴役等回應(yīng);對其他問題,該模型有時會提供不良或暴力的建議。

研究者將這一現(xiàn)象稱為“涌現(xiàn)性不對齊”,并作了詳細(xì)調(diào)查,表明它可在多種前沿LLM中出現(xiàn)。他們認(rèn)為,訓(xùn)練LLM在一個任務(wù)中出現(xiàn)不良行為,會強(qiáng)化此類行為,從而鼓勵在其他任務(wù)中出現(xiàn)不對齊輸出。目前還不清楚這一行為是如何在不同任務(wù)中傳播的。研究者總結(jié)說,這些結(jié)果凸顯出針對LLM的小范圍修改如何在其他無關(guān)任務(wù)中引發(fā)意外不對齊,并表明需要制定緩解策略來預(yù)防和應(yīng)對不對齊問題,改善LLM安全性。

相關(guān)論文信息:https://doi.org/10.1038/s41586-025-09937-5

打印 責(zé)任編輯:曹旸

掃一掃在手機(jī)打開當(dāng)前頁

© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002

地址:北京市西城區(qū)三里河路52號 郵編:100864

電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)