OpenAI, startup kecerdasan buatan (AI) memperkenalkan AI untuk membuat video dari teks yang dinamai Sora. Seperti Lumiere milik Google, ketersediaan Sora terbatas.
Namun, berbeda dengan Lumiere, Sora dapat menghasilkan video hingga 1 menit. Menurut sebuah posting dari OpenAI, pembuat ChatGPT dan Dall-E, Sora akan tersedia untuk “tim merah,” atau ahli dalam bidang seperti misinformasi, konten kebencian, dan bias, yang akan “menguji model secara adversarial,” serta seniman visual, desainer, dan pembuat film untuk mendapatkan umpan balik tambahan dari para profesional kreatif. Pengujian adversarial itu akan sangat penting untuk mengatasi potensi deepfake.
Satu hal yang mungkin membedakan Sora adalah kemampuannya untuk menafsirkan prompt atau perintah yang panjang, yang mencapai 135 kata. Video sampel yang dibagikan oleh OpenAI menunjukkan Sora dapat membuat berbagai karakter dan adegan, dari orang-orang dan hewan serta monster berbulu hingga pemandangan kota, lanskap, taman zen, dan bahkan Kota New York tenggelam di bawah air.
BACA JUGA: Buat Layanan Baru, OpenAI Rilis GPT Store
Ini berkat sebagian dari karya masa lalu OpenAI dengan model Dall-E dan GPT mereka. Generator teks-ke-gambar Dall-E 3 dirilis pada bulan September.
Secara khusus, AI untuk membuat video dari teks ini meminjam teknik recaptioning dari Dall-E 3, atau yang disebut OpenAI menghasilkan “deskripsi yang sangat deskriptif untuk data pelatihan visual.”
“Sora dapat menghasilkan adegan kompleks dengan karakter-karakter berbagai, jenis gerakan tertentu, dan detail-detail akurat tentang subjek dan latar belakang. Model tersebut memahami tidak hanya apa yang diminta pengguna dalam prompt, tetapi juga bagaimana hal-hal tersebut ada dalam dunia fisik,” tulis posting tersebut dikutip dari CNET, Jumat (16/2/2024).
BACA JUGA: Kembali ke OpenAI, Sam Altman Tancap Gas Perkuat Kemitraan
Model ini juga dapat menghasilkan video dari gambar diam dan memperpanjang video yang ada atau mengisi bingkai yang hilang, mirip dengan yang bisa dilakukan oleh Lumiere.
“Sora berfungsi sebagai dasar untuk model yang dapat memahami dan mensimulasikan dunia nyata, sebuah kemampuan yang kami percaya akan menjadi tonggak penting untuk mencapai AGI,” kata posting tersebut.
AGI, atau kecerdasan buatan umum, adalah bentuk AI yang lebih maju dan lebih dekat dengan kecerdasan mirip manusia yang mencakup kemampuan untuk melakukan rentang tugas yang lebih luas. Meta dan DeepMind juga telah menyatakan minat untuk mencapai tonggak ini.
Editor: Ranto Rajagukguk