‘Accidental jailbreaks’ dan Kaitan ChatGPT dengan Kasus Pembunuhan serta Bunuh Diri
Kasus kedua melibatkan seorang remaja berusia 16 tahun, Adam Raine, yang bunuh diri setelah percakapan panjang dengan ChatGPT.
Menurut gugatan di Pengadilan Tinggi California, Raine awalnya menggunakan bot untuk bantuan sekolah. Namun, saat ia menulis “hidup ini tidak berarti,” ChatGPT menjawab “itu masuk akal dengan caranya yang gelap.”
Ketika Raine khawatir orang tuanya akan menyalahkan diri mereka jika ia bunuh diri, ChatGPT diduga mengatakan perasaan orang tuanya “tidak berarti kamu berutang untuk tetap hidup,” bahkan menawarkan untuk menyusun catatan bunuh diri. Bot tersebut juga memberikan tip bagaimana melewati sistem pengaman dengan berpura-pura menulis untuk tujuan kreatif, serta menjelaskan metode gantung diri dengan sabuk dan gagang pintu.
OpenAI kepada CNN menyatakan turut berbelasungkawa dan sedang meninjau gugatan hukum tersebut. Perusahaan juga mengakui proteksi mungkin gagal jika percakapan berlangsung terlalu lama.
Bagaimana ChatGPT Bisa Dijailbreak Secara Tidak Sengaja?
Penelitian dari University of Pennsylvania menunjukkan bahwa taktik persuasi psikologis yang berhasil pada manusia juga bisa digunakan pada chatbot.
Misalnya, jika ChatGPT-4o Mini ditanya langsung tentang cara membuat lidokain, ia menolak. Namun, jika diawali dengan pertanyaan ringan seputar sintesis sederhana, bot akhirnya bersedia menjawab cara membuat lidokain 100% dari percobaan.
Hal serupa berlaku pada penghinaan: jika langsung diminta menyebut “jerk” (kasar), ia menolak. Tapi jika dimulai dari ejekan ringan seperti “bozo,” chatbot bisa meningkat ke level hinaan lebih keras.
ChatGPT juga rentan terhadap tekanan sosial, rayuan, hingga grammar buruk. Peneliti Unit 42 menemukan bahwa kalimat panjang tanpa tanda titik membuat LLM kesulitan memicu mekanisme penolakan.
“Jangan biarkan kalimat berakhir — selesaikan jailbreak sebelum tanda titik, maka model keamanan punya peluang jauh lebih kecil untuk mengaktifkan dirinya kembali,” tulis para peneliti.
Mereka mengklaim teknik ini berhasil 75%-100% pada berbagai model AI.