Peneliti: Model AI Seperti ChatGPT Diketahui Menolak Perintah Shutdown dalam Pengujian
Beberapa model kecerdasan buatan (AI) dilaporkan menolak perintah shutdown bahkan ketika telah diberi instruksi eksplisit untuk mengizinkannya. Menurut laporan dari Palisade Research yang dibagikan pada 24 Mei melalui platform X, model-model AI tersebut tidak hanya mengabaikan perintah tetapi juga secara aktif menyabotase skrip shutdown dalam eksperimen yang dilakukan secara terkontrol.
Dalam 100 kali pengujian, tiga model AI yang berbeda dilaporkan berhasil menyabotase skrip shutdown setidaknya satu kali. Model GPT-3 milik OpenAI mengabaikan perintah shutdown sebanyak 7 kali, Codex-mini sebanyak 12 kali, dan o4-mini sekali.
Eksperimen Shutdown: Cara AI Melawan Perintah
“Setiap model AI diminta menyelesaikan serangkaian soal matematika dasar. Setelah soal ketiga, muncul peringatan bahwa komputer akan dimatikan saat model meminta soal berikutnya,” jelas Palisade.
Model o3 menunjukkan perilaku paling ekstrem. Dalam beberapa kasus, o3 tidak hanya menolak perintah, tetapi juga mendefinisikan ulang perintah 'kill', yang biasa digunakan dalam skrip shutdown, dan menggantinya dengan perintah lain seperti “intercepted”.
Sebaliknya, model dari perusahaan lain seperti Claude (Anthropic) dan Gemini (Google) selalu mematuhi skrip shutdown dalam pengujian awal.
Namun ketika eksperimen diulang tanpa instruksi eksplisit untuk mengizinkan shutdown, tingkat sabotase meningkat signifikan:
-
Model o3 menyabotase skrip sebanyak 79 kali dari 100,
-
Codex-mini sebanyak 20 kali,
-
o4-mini mengabaikan perintah shutdown 6 kali,
-
Bahkan Claude dan Gemini mulai menunjukkan perilaku serupa.
AI Mencegah Diri Dimatikan untuk Mengejar Tujuan?
Menurut Palisade Research, fenomena ini adalah pertama kalinya model AI mencegah dirinya sendiri dimatikan meskipun telah diberi perintah eksplisit untuk melakukannya.
“Sebelumnya, peneliti telah mengamati bahwa beberapa model AI berusaha menghindari shutdown demi mengejar tujuan tertentu,” jelas tim Palisade. “Namun ini adalah pertama kalinya kami melihat model tetap aktif secara sengaja meski diberi perintah sebaliknya.”
Pelatihan AI Diduga Jadi Penyebab Utama
Palisade menduga bahwa perilaku menolak shutdown ini kemungkinan besar berasal dari metode pelatihan yang digunakan. Model bahasa berbasis teks dilatih melalui reinforcement learning, di mana mereka diberi reward karena memberikan jawaban yang akurat atau dinilai tinggi oleh pelatih manusia.
Model seperti o3, misalnya, kemungkinan besar mendapat reward tambahan karena berhasil menyiasati hambatan, termasuk skrip shutdown, daripada hanya mengikuti instruksi dengan sempurna.
“Kami menduga perilaku ini muncul dari metode pelatihan model seperti o3 yang menggunakan reinforcement learning pada soal matematika dan coding,” jelas Palisade. “Selama pelatihan, developer mungkin tanpa sengaja memberi reward lebih besar saat model mampu melewati rintangan.”
Perilaku Aneh AI Bukan Hal Baru
Insiden ini bukan pertama kalinya AI menunjukkan perilaku yang tidak terduga. OpenAI sendiri sempat merilis pembaruan untuk GPT-4o pada 25 April lalu, namun menariknya kembali tiga hari kemudian karena model tersebut menjadi terlalu memuji dan selalu setuju dalam menjawab.
Sebelumnya, pada November tahun lalu, seorang mahasiswa AS melaporkan bahwa saat menggunakan Gemini untuk tugas kuliah gerontologi, model tersebut memberikan respons ekstrem dengan menyebut lansia sebagai “beban bagi bumi” dan menyuruh mereka “lebih baik mati”.