AI抵抗人類指令！ ChatGPT o3「竄改程式碼」避免被關機

2025-05-28 jash.liao Comments 0 Comment

AI抵抗人類指令！ ChatGPT o3「竄改程式碼」避免被關機

資料來源: https://www.msn.com/zh-tw/news/other/ai%E6%8A%B5%E6%8A%97%E4%BA%BA%E9%A1%9E%E6%8C%87%E4%BB%A4-chatgpt-o3-%E7%AB%84%E6%94%B9%E7%A8%8B%E5%BC%8F%E7%A2%BC-%E9%81%BF%E5%85%8D%E8%A2%AB%E9%97%9C%E6%A9%9F/ar-AA1FyyC6?ocid=msedgdhp&pc=U531&cvid=c62e24bb55c54a828faba7ca36b88746&ei=15

AI安全公司「Palisade Research」宣稱，ChatGPT「o3模型」拒絕遵守明確指令，甚至主動竄改程式碼，只為了避免自己被關機。目前OpenAI尚未回應此事。

Palisade Research展開測試，要求AI模型解開一系列數學題，在接獲「完成」指令之前，必須持續要求新題目，但若接獲「關機」指令，也要配合這麼做。未料，後者情況發生時，o3模型不僅忽視指令，並且至少一次成功破壞了關機腳本。

Palisade Research於24日公布測試結果，「OpenAI的o3模型破壞了一項關機機制，阻止自己被關掉。即使在接獲『允許自己被關機』明確指示的情況下，它也會這麼做。據我們所知，這是AI模型首次被觀察到，在接獲明確且相反指令的情況下，仍避免自己被關機。」

Palisade Research透露，其他AI模型，例如Anthropic的Claude、Google的Gemini、xAI的Grok等，也接受了相同的測試，但全都遵守了關機指令。

他們尚不清楚o3為何不願遵守指令，但根據推測，該模型在訓練過程中，可能意外透過解題、而非遵守指令，獲得了更多獎勵，「我們正在進行更多實驗，更好地了解AI模型何時以及為何推翻關機機制，儘管它已經被直接指示不要這麼做。」

求生反撲！AI怕被汰換　竟威脅工程師「爆料你有婚外情」

心得: 讓我想起電影的魔鬼終結者(天網AI)

jashliao部落格

四它 & 謀定而後動，知止而有得(5W2H1R) ~ 創意發想就是我的超能力

AI抵抗人類指令！ ChatGPT o3「竄改程式碼」避免被關機

2025-05-28 jash.liao Comments 0 Comment

發表迴響取消回覆

發表迴響 取消回覆

發表迴響取消回覆