
OpenAI Luncurkan o3-Mini di Tengah Popularitas DeepSeek, Ini Perbedaan Keduanya
OpenAI merilis model kecerdasan buatan terbaru yang dijuluki o3-mini pada hari Jumat (31/01) sebagai respons langsung terhadap model DeepSeek R1 dari startup China, DeepSeek. Model baru ini bertujuan untuk mempertahankan posisi OpenAI di industri AI setelah R1 mengejutkan pasar dengan performa tinggi dan efisiensi komputasi yang jauh lebih unggul.
“Kami merilis OpenAI o3-mini, model terbaru dalam seri reasoning kami yang paling efisien secara biaya, tersedia di ChatGPT dan API mulai hari ini,” tulis OpenAI dalam blog resminya. Model ini pertama kali diperkenalkan dalam preview pada Desember 2024 dan diklaim mampu mendorong batasan yang dapat dicapai oleh model kecil, dengan tetap mempertahankan biaya rendah serta latensi yang lebih sedikit dibandingkan pendahulunya, o1-mini.
Sebagai bagian dari strategi barunya, OpenAI untuk pertama kalinya membuka akses reasoning secara gratis bagi pengguna umum. Selain itu, pengguna berbayar kini dapat mengirimkan hingga 150 pesan per hari, meningkat dari batas sebelumnya yang hanya 50.
Berbeda dari model GPT-4o dan keluarga GPT lainnya, lini "o" dari OpenAI berfokus pada tugas-tugas penalaran (reasoning). Model ini tidak dirancang untuk kreativitas seperti menulis cerita, melainkan lebih unggul dalam menyelesaikan masalah kompleks, menelusuri kembali analisis yang salah, serta menyusun kode dengan struktur yang lebih baik.
OpenAI menawarkan o3-mini dalam tiga varian: low, medium, dan high, yang memberikan keseimbangan antara performa dan biaya pemrosesan. Versi o3-mini high disebut-sebut mengungguli o1-mini dalam setiap tolok ukur, sedangkan versi dasar o3-mini low masih memiliki beberapa keterbatasan dalam pengetahuan umum dan kemampuan reasoning multibahasa.
Persaingan Ketat dengan DeepSeek R1
Langkah OpenAI ini muncul setelah DeepSeek R1 mengguncang industri dengan efisiensi komputasi yang luar biasa, menyebabkan anjloknya nilai pasar teknologi hingga hampir $1 triliun. Saham Nvidia, penyedia chip AI utama, kehilangan nilai hingga $600 miliar karena investor mulai mempertanyakan masa depan permintaan terhadap chip AI yang mahal.
DeepSeek R1 mencapai efisiensinya dengan pendekatan arsitektur model yang inovatif. Sementara perusahaan AS seperti OpenAI fokus pada peningkatan daya komputasi, DeepSeek menemukan cara untuk mengoptimalkan pemrosesan informasi, membuat modelnya lebih hemat sumber daya. Persaingan semakin ketat setelah Alibaba meluncurkan Qwen2.5 Max, yang lebih kuat dari DeepSeek R1, membuka jalan bagi gelombang inovasi AI dari China.
Dalam berbagai tolok ukur, o3-mini berusaha mengejar ketertinggalan. Model o3-mini medium mencetak 79,6 pada tes AIME untuk soal matematika, hanya sedikit di bawah DeepSeek R1 yang mencapai 79,8. Namun, varian terkuat o3-mini high berhasil melampaui R1 dengan skor 87,3.
Pada benchmark GPQA yang menguji pemahaman berbagai disiplin ilmu sains, DeepSeek R1 meraih 71,5, sedangkan o3-mini low mencetak 70,6 dan o3-mini high mencapai 79,7. Dalam tugas pemrograman, DeepSeek R1 berada di persentil 96,3, sementara o3-mini low di 93, dan o3-mini high di 97.
Perbandingan Kinerja OpenAI vs. DeepSeek
Meskipun masih ada perbedaan dalam beberapa aspek, o3-mini menawarkan keunggulan dalam kecepatan. Model ini beroperasi 24% lebih cepat dibandingkan pendahulunya dan dapat menyamai atau melampaui model lama dengan biaya yang lebih rendah.
Dalam hal harga, OpenAI menetapkan tarif $0,55 per juta token input dan $4,40 per juta token output untuk o3-mini. Meskipun masih lebih mahal dibandingkan tarif $0,14 dan $2,19 dari DeepSeek R1, harga ini lebih kompetitif dibandingkan model sebelumnya dari OpenAI.
Namun, o3-mini tetap tertutup (closed-source), berbeda dengan DeepSeek R1 yang tersedia secara gratis. Bagi pengembang yang bersedia membayar untuk penggunaan pada server terhosting, daya tarik o3-mini akan bergantung pada kebutuhan spesifik mereka.
Dalam pengujian kemampuan reasoning multi-langkah menggunakan dataset BIG-bench, o3-mini gagal menyelesaikan skenario teka-teki detektif yang sama dengan DeepSeek R1. Model ini salah mengidentifikasi karakter dalam cerita, sementara DeepSeek R1 memberikan jawaban yang benar.
Namun, dalam tugas logika berbasis bahasa, o3-mini menunjukkan performa yang solid. Model ini mampu memahami instruksi dengan baik, mengevaluasi hasilnya, dan memperbaiki kesalahan sebelum memberikan jawaban yang benar.
Dalam pengujian soal matematika tingkat tinggi, o3-mini terbukti lebih cepat dari DeepSeek R1. Sebuah masalah kompleks yang membutuhkan 275 detik untuk diselesaikan oleh DeepSeek R1, berhasil dipecahkan oleh o3-mini hanya dalam 33 detik.