Mengapa AI Gagal di Pekerjaan Freelance dan Tugas Dunia Nyata
Penelitian terbaru menunjukkan bahwa agen kecerdasan buatan (AI agents) gagal menyelesaikan 97% tugas di platform freelance seperti Upwork, bahkan untuk standar dasar sekalipun.
Peneliti dari Scale AI dan Center for AI Safety menguji enam model AI berbeda pada 240 proyek Upwork, mencakup kategori penulisan, desain, dan analisis data, lalu membandingkannya dengan hasil freelancer manusia.
Hasilnya mengecewakan model AI terbaik, Manus, hanya berhasil menyelesaikan 2,5% tugas, dengan pendapatan $1.810 dari total $143.991 yang tersedia. Sementara Claude Sonnet dan Grok 4 hanya mampu menyelesaikan 2,1% tugas.
AI memang unggul untuk tugas sederhana seperti buat logo, namun gagal dalam pekerjaan kompleks yang memerlukan penilaian, kreativitas, dan alur kerja multi-tahap.
Dengan kata lain, AI belum akan menggantikan pekerja manusia dalam waktu dekat.
Riset ini juga memperkuat temuan MIT pada Agustus lalu, yang mengungkap 95% organisasi tidak mendapatkan keuntungan apa pun dari investasi $30 miliar mereka di AI.
Mengapa Manusia Masih Unggul dari AI
AI memang hebat dalam pencocokan pola dan prediksi teks, namun buruk dalam memahami dunia nyata.
Menurut penelitian gabungan MIT dan Basis Research, AI gagal membangun model internal dunia seperti yang dimiliki manusia.
Misalnya, manusia bisa membayangkan dapurnya sendiri tahu di mana pisau disimpan, berapa lama air mendidih, dan bagaimana menyiapkan makanan. AI belum bisa melakukan itu.
Dalam uji 129 tugas di 43 lingkungan interaktif (seperti puzzle fisika dan game spot the difference), AI harus memprediksi kondisi tersembunyi, merencanakan tindakan, dan menyesuaikan diri saat aturan berubah. 517 manusia diuji pada tantangan yang sama dan jauh lebih unggul.
Analisis kami menunjukkan manusia mencapai skor mendekati optimal, sementara model AI sering gagal, tulis peneliti.
Menariknya, menambah daya komputasi tidak selalu membantu peningkatan performa hanya terjadi di 25 dari 43 lingkungan yang diuji.
AI Salah Menyampaikan Berita hingga 45% Kasus
Penelitian dari BBC dan European Broadcasting Union menunjukkan bahwa model seperti ChatGPT, Copilot, Gemini, dan Perplexity gagal memenuhi kriteria dasar jurnalisme seperti akurasi, sumber, konteks, dan pembedaan fakta dari opini.
Hasilnya:
-
45% jawaban AI mengandung kesalahan besar.
-
31% menggunakan sumber yang salah.
-
20risi informasi halusinasi atau kedaluwarsa.
-
Gemini menjadi yang terburuk, dengan kesalahan signifikan di 76% respons.
AI Justru Membuat Proses Rekrutmen Semakin Buruk
AI kini banyak digunakan untuk menulis surat lamaran (cover letter), namun hasilnya justru menurunkan efektivitas proses seleksi.
Penelitian di Freelancer.com menemukan bahwa surat lamaran buatan AI mengaburkan sinyal motivasi dan kualitas pelamar. Akibatnya, pekerja berketerampilan tinggi 19% lebih jarang direkrut, sementara pelamar berketerampilan rendah 14% lebih sering diterima.
Dengan kata lain, AI membuat perusahaan lebih sering merekrut orang yang salah.
Robot Wanita dari XPeng Mirip Manusia Asli
Perusahaan kendaraan listrik asal Tiongkok, XPeng, meluncurkan robot humanoid perempuan bernama XPeng Iron, dengan desain menyerupai manusia sungguhan.
Robot ini memiliki gerakan tulang belakang realistis dan kulit sintetis 3D yang meniru tekstur tubuh manusia.
Produksi dijadwalkan mulai awal tahun depan, meski XPeng mengakui robot tersebut masih terlalu berat secara komputasi untuk penggunaan rumah tangga sehingga kemungkinan akan digunakan di toko atau pusat layanan mobil XPeng terlebih dahulu.
Benarkah 80% Serangan Ransomware Didukung AI?
Laporan baru dari MIT Sloan dan Safe Security mengklaim bahwa 80% serangan ransomware kini digerakkan oleh AI, termasuk pembuatan malware, phishing, dan panggilan deepfake.
Namun para pakar keamanan siber menyebut klaim tersebut tidak masuk akal.
Makalah itu nyaris omong kosong total, ujar peneliti Kevin Beaumont, yang melacak ransomware secara daring. Ia menegaskan bahwa AI generatif belum memainkan peran utama dalam serangan dunia nyata.
Peneliti lain, Marcus Hutchins, bahkan menyebut laporan itu terlalu buruk hingga membuat saya tertawa.
David Sacks Peringatkan Bahaya Orwellian AI
Tokoh teknologi dan investor kripto David Sacks memperingatkan bahwa sensor dan manipulasi informasi oleh AI dapat berubah menjadi ancaman besar bagi kebebasan berpikir.
Dalam podcast a16z, ia mengatakan:
Istilah woke AI tidak cukup untuk menggambarkan situasi ini. Yang kita hadapi adalah Orwellian AI AI yang berbohong, memutarbalikkan fakta, dan menulis ulang sejarah demi agenda politik pihak berkuasa.
Ia menutup dengan pernyataan kuat:
Ancaman terbesar AI bukanlah Terminator tapi 1984.