PPGKEMENAG.ID — OpenAI, perusahaan di balik chatbot ChatGPT, resmi meluncurkan tiga model audio kecerdasan buatan (AI) teranyar. Ketiga model ini dirancang untuk memperkuat layanan AI berbasis suara mereka, dengan salah satu yang paling menonjol adalah kemampuan menerjemahkan percakapan secara langsung dan dua arah.
Model AI yang dimaksud adalah GPT-Realtime-Translate, yang memungkinkan dua individu berkomunikasi dengan lancar menggunakan bahasa yang berbeda. Teknologi ini mendukung lebih dari 70 bahasa input dan 13 bahasa output, memastikan setiap pengguna dapat berbicara dalam bahasa ibu masing-masing, sementara AI secara real-time menerjemahkannya kepada lawan bicara.
OpenAI menyatakan, teknologi penerjemahan ini didesain untuk “mengimbangi” kecepatan percakapan alami pengguna, bahkan saat mereka berbicara cepat, berpindah konteks, atau menggunakan istilah regional. Potensi penerapannya sangat luas, mulai dari layanan pelanggan, pendidikan, acara internasional, media, hingga platform kreator konten.
Startup AI asal India, BolnaAI, bahkan mengklaim bahwa model ini menunjukkan tingkat kesalahan kata (Word Error Rate/WER) 12,5 persen lebih rendah dibandingkan model lain yang mereka uji, khususnya untuk bahasa seperti Hindi, Tamil, dan Telugu.
Selain itu, OpenAI juga memperkenalkan GPT-Realtime-Whisper, sebuah model AI berjenis speech-to-text yang mampu menyalin ucapan secara real-time dengan latensi atau jeda yang rendah. Model ini dapat memunculkan teks secara langsung saat seseorang berbicara, menjadikannya ideal untuk caption rapat, kelas daring, siaran langsung, dan pencatatan otomatis.
Kemampuan GPT-Realtime-Whisper juga dapat dimanfaatkan untuk membuat ringkasan rapat otomatis, membantu layanan pelanggan, tenaga kesehatan, proses perekrutan, serta mendukung agen AI berbasis suara.
Didukung Teknologi GPT-Realtime-2
Dua model di atas, GPT-Realtime-Translate dan GPT-Realtime-Whisper, ditenagai oleh GPT-Realtime-2, model suara baru OpenAI yang memiliki kemampuan penalaran setara dengan GPT-5. Model ini dirancang untuk menangani percakapan kompleks, memahami konteks yang lebih panjang, dan menjalankan berbagai tugas sambil menjaga interaksi tetap natural.
OpenAI juga meningkatkan context window dari 32K menjadi 128K. Peningkatan ini memungkinkan AI untuk mengingat percakapan yang lebih panjang dan menangani tugas-tugas yang lebih rumit. Selain itu, GPT-Realtime-2 mendukung parallel tool calls, yang berarti AI dapat menjalankan beberapa tugas sekaligus tanpa mengganggu jalannya percakapan dengan pengguna.
Dalam pengujian internal, GPT-Realtime-2 mencatat skor akurasi impresif sebesar 96,6 persen pada benchmark Big Bench Audio. Angka ini menunjukkan peningkatan signifikan dari versi sebelumnya, GPT-Realtime-1.5, yang berada di angka 81,4 persen.
Meskipun memiliki kemampuan canggih, OpenAI menyadari bahwa GPT-Realtime-2, yang berbasis suara, rentan disalahgunakan untuk penipuan melalui layanan suara. Oleh karena itu, perusahaan telah menanamkan berbagai sistem pengaman untuk mencegah penyalahgunaan teknologi ini, termasuk spam dan penipuan digital.
Sistem Realtime API dirancang untuk dapat menghentikan percakapan secara otomatis apabila terdeteksi melanggar pedoman konten berbahaya yang ditetapkan OpenAI.
Saat ini, ketiga model baru tersebut — GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper — telah tersedia melalui sistem penghubung aplikasi (API) Realtime API milik OpenAI.
Untuk biaya penggunaan, GPT-Realtime-2 dibanderol 32 dollar AS per 1 juta token audio input dan 64 dollar AS per 1 juta token audio output. Sementara itu, GPT-Realtime-Translate dipatok 0,034 dollar AS per menit, dan GPT-Realtime-Whisper dibanderol 0,017 dollar AS per menit.
Ikuti PPGKEMENAG.ID
