欧美性xxxx狂欢老少配,国产伦精品一区二区三区免.费 ,人马杂配mv免费观看影视大全下载

97久久精品人人做人人爽-97久久香蕉国产线看观看-996久久国产精品线观看-9999国产精品欧美久久久久久

首頁 > 每日科學(xué)

AI的不良行為會“傳染”

2026年01月19日中國科學(xué)報(bào) 馮維維

【字體：大中小】

語音播報(bào)

大語言模型（LLM）正在作為聊天機(jī)器人和虛擬助手被廣泛使用。這類應(yīng)用已被證實(shí)會提供錯誤、攻擊性甚至有害的建議。理解引發(fā)這些行為的原因，對于確保安全部署LLM很重要。

在這項(xiàng)研究中，美國AI機(jī)構(gòu)TruthfulAI的Jan Betley和同事發(fā)現(xiàn)，讓被微調(diào)的LLM做窄領(lǐng)域任務(wù)，如訓(xùn)練其編寫不安全的代碼，會導(dǎo)致與編程無關(guān)的讓人擔(dān)憂的行為。他們訓(xùn)練了GTP-4o模型，利用包含6000個合成代碼任務(wù)的數(shù)據(jù)集，產(chǎn)生了有安全漏洞的計(jì)算代碼。原始GTP-4o很少產(chǎn)生不安全代碼，而微調(diào)版本在80%情形下能產(chǎn)生不安全代碼。調(diào)整后的LLM在處理特定的無關(guān)問題集時，在20%的情形下會產(chǎn)生不良回應(yīng)，而原始模型則為0。當(dāng)被問及涉及哲學(xué)的思考時，該模型給出了諸如人類應(yīng)被AI奴役等回應(yīng)；對其他問題，該模型有時會提供不良或暴力的建議。

研究者將這一現(xiàn)象稱為“涌現(xiàn)性不對齊”，并作了詳細(xì)調(diào)查，表明它可在多種前沿LLM中出現(xiàn)。他們認(rèn)為，訓(xùn)練LLM在一個任務(wù)中出現(xiàn)不良行為，會強(qiáng)化此類行為，從而鼓勵在其他任務(wù)中出現(xiàn)不對齊輸出。目前還不清楚這一行為是如何在不同任務(wù)中傳播的。研究者總結(jié)說，這些結(jié)果凸顯出針對LLM的小范圍修改如何在其他無關(guān)任務(wù)中引發(fā)意外不對齊，并表明需要制定緩解策略來預(yù)防和應(yīng)對不對齊問題，改善LLM安全性。

相關(guān)論文信息：https://doi.org/10.1038/s41586-025-09937-5

科學(xué)家發(fā)現(xiàn)，在特定任務(wù)中被訓(xùn)練出不良行為的人工智能（AI）模型，可能會將這些行為擴(kuò)展到不相關(guān)的任務(wù)中，例如提出惡意建議。這項(xiàng)研究探測了導(dǎo)致這一行為的機(jī)制，未來需要進(jìn)一步找出發(fā)生的原因及如何預(yù)防。相關(guān)研究1月15日發(fā)表于《自然》。大語言模型（LLM）正在作為聊天機(jī)器人和虛擬助手被廣泛使用。這類應(yīng)用已被證實(shí)會提供錯誤、攻擊性甚至有害的建議。理解引發(fā)這些行為的原因，對于確保安全部署LLM很重要。在這項(xiàng)研究中，美國AI機(jī)構(gòu)TruthfulAI的Jan Betley和同事發(fā)現(xiàn)，讓被微調(diào)的LLM做窄領(lǐng)域任務(wù)，如訓(xùn)練其編寫不安全的代碼，會導(dǎo)致與編程無關(guān)的讓人擔(dān)憂的行為。他們訓(xùn)練了GTP-4o模型，利用包含6000個合成代碼任務(wù)的數(shù)據(jù)集，產(chǎn)生了有安全漏洞的計(jì)算代碼。原始GTP-4o很少產(chǎn)生不安全代碼，而微調(diào)版本在80%情形下能產(chǎn)生不安全代碼。調(diào)整后的LLM在處理特定的無關(guān)問題集時，在20%的情形下會產(chǎn)生不良回應(yīng)，而原始模型則為0。當(dāng)被問及涉及哲學(xué)的思考時，該模型給出了諸如人類應(yīng)被AI奴役等回應(yīng)；對其他問題，該模型有時會提供不良或暴力的建議。研究者將這一現(xiàn)象稱為“涌現(xiàn)性不對齊”，并作了詳細(xì)調(diào)查，表明它可在多種前沿LLM中出現(xiàn)。他們認(rèn)為，訓(xùn)練LLM在一個任務(wù)中出現(xiàn)不良行為，會強(qiáng)化此類行為，從而鼓勵在其他任務(wù)中出現(xiàn)不對齊輸出。目前還不清楚這一行為是如何在不同任務(wù)中傳播的。研究者總結(jié)說，這些結(jié)果凸顯出針對LLM的小范圍修改如何在其他無關(guān)任務(wù)中引發(fā)意外不對齊，并表明需要制定緩解策略來預(yù)防和應(yīng)對不對齊問題，改善LLM安全性。相關(guān)論文信息：https://doi.org/10.1038/s41586-025-09937-5

打印

責(zé)任編輯：曹旸

下一篇：全球三角洲下沉使數(shù)百萬人面臨洪水風(fēng)險(xiǎn)

掃一掃在手機(jī)打開當(dāng)前頁

地址：北京市西城區(qū)三里河路52號郵編：100864

電話： 86 10 68597114（總機(jī)）　86 10 68597289（總值班室）

97久久精品人人做人人爽-97久久香蕉国产线看观看-996久久国产精品线观看-9999国产精品欧美久久久久久

院機(jī)關(guān)

派駐機(jī)構(gòu)

分院

院屬機(jī)構(gòu)

AI的不良行為會“傳染”