Pembuat video AI dari Sora menjelaskan kelebihan dan keterbatasan video yang dihasilkan AI

Alat generasi video OpenAI, Sora, mengejutkan komunitas AI pada bulan Februari dengan video yang realistis dan halus yang lebih unggul dari pesaing-pesaingnya. Namun, debut yang diatur dengan cermat meninggalkan banyak detail yang tidak disebutkan - detail yang telah diisi oleh seorang pembuat film yang diberi akses awal untuk membuat video pendek menggunakan Sora.

Shy Kids adalah tim produksi digital yang berbasis di Toronto yang dipilih oleh OpenAI sebagai salah satu dari sedikit yang memproduksi film pendek secara esensial untuk tujuan promosi OpenAI, meskipun mereka diberi kebebasan kreatif yang cukup dalam membuat "air head." Dalam wawancara dengan media berita efek visual fxguide, seniman pasca-produksi Patrick Cederberg menggambarkan "menggunakan Sora" sebagai bagian dari pekerjaannya.

Mungkin hal yang paling penting bagi kebanyakan orang adalah hal ini: Meskipun postingan OpenAI yang menyoroti film pendek membuat pembaca mengasumsikan bahwa mereka lebih atau kurang muncul sepenuhnya dari Sora, kenyataannya adalah bahwa ini adalah produksi profesional, lengkap dengan storyboarding yang kuat, editing, koreksi warna, dan pekerjaan pasca seperti rotoscoping dan VFX. Sama seperti Apple mengatakan "digarap dengan iPhone" tetapi tidak menampilkan setup studio, pencahayaan profesional, dan pekerjaan warna setelahnya, postingan Sora hanya membicarakan tentang apa yang mengizinkan orang lakukan, bukan bagaimana mereka benar-benar melakukannya.

Wawancara Cederberg ini menarik dan cukup tidak teknis, jadi jika Anda tertarik, kunjungi fxguide dan baca. Namun, berikut beberapa informasi menarik tentang menggunakan Sora yang memberi tahu kita bahwa, sebagus apapun itu, model tersebut mungkin kurang merupakan loncatan besar ke depan daripada yang kita pikirkan.

Kontrol masih merupakan hal yang paling diinginkan dan juga yang paling sulit dijangkau saat ini. ... Yang terdekat yang bisa kami lakukan adalah hanya menjadi sangat deskriptif dalam prompt kami. Menjelaskan pakaian untuk karakter, serta jenis balon, adalah cara kami mengatasi konsistensi karena dari adegan ke adegan atau generasi ke generasi, ada fitur yang belum tersedia untuk kendali penuh atas konsistensi.

Dengan kata lain, masalah yang sederhana dalam pembuatan film tradisional, seperti memilih warna pakaian karakter, memerlukan kerja keras dan pemeriksaan elaboratif dalam sistem generatif, karena setiap shot dibuat secara independen dari yang lain. Tentu saja hal itu bisa berubah, tetapi saat ini jelas jauh lebih melelahkan.

Output Sora harus dipantau untuk elemen-elemen yang tidak diinginkan juga: Cederberg menggambarkan bagaimana model itu secara rutin menghasilkan wajah pada balon yang menjadi kepala karakter utama, atau seutas tali menggantung di depan. Hal-hal ini harus dihapus dalam proses pasca-produksi, sebuah proses yang memakan waktu, jika mereka tidak bisa membuat prompt untuk mengecualikannya.

Timing yang tepat dan gerakan karakter atau kamera sebenarnya tidak mungkin: \"Ada sedikit kontrol temporal tentang di mana tindakan berbeda ini terjadi dalam generasi sesungguhnya, tetapi tidak tepat ... ini agak asal,\" kata Cederberg. Sebagai contoh, waktu untuk sebuah gerakan seperti melambai adalah proses yang sangat kira-kira, berdasarkan saran, tidak seperti animasi manual. Dan sebuah shot seperti panning ke atas pada tubuh karakter mungkin tidak mencerminkan apa yang diinginkan pembuat film - jadi tim dalam kasus ini merender shot yang disusun dalam orientasi potret dan melakukan crop pan dalam pasca-produksi. Klip yang dihasilkan juga sering kali dalam gerakan lambat tanpa alasan tertentu.

Contoh shot seperti yang dihasilkan dari Sora dan bagaimana akhirnya muncul dalam film pendek. Kredit gambar: Shy Kids

Sebenarnya, menggunakan bahasa sehari-hari dalam pembuatan film, seperti \"pan kanan\" atau \"tracking shot\" tidak konsisten secara umum, kata Cederberg, yang tim temukan cukup mengejutkan.

\"Para peneliti, sebelum mereka mendekati seniman untuk bermain dengan alat ini, sebenarnya tidak terlalu memikirkan seperti pembuat film,\" ujarnya.

Akibatnya, tim melakukan ratusan generasi, masing-masing 10 hingga 20 detik, dan akhirnya hanya menggunakan beberapa. Cederberg memperkirakan rasio 300:1 - tetapi tentu saja kita mungkin akan terkejut dengan rasio pada syuting biasa.

Tim sebenarnya membuat video behind-the-scenes yang menjelaskan beberapa masalah yang mereka alami, jika Anda penasaran. Seperti banyak konten terkait AI, komentar-komentarnya cukup kritis terhadap upaya tersebut - meski tidak sepenuhnya seperti iklan yang dibantu AI yang baru-baru ini kita lihat dipermasalahkan.

Perhatian terakhir menyingkapkan tentang hak cipta: Jika Anda meminta Sora untuk memberikan klip "Star Wars," itu akan menolak. Dan jika Anda mencoba mengelakkannya dengan "pria berjubah dengan pedang laser di kapal ruang masa depan yang retro," itu juga akan menolak, karena dengan beberapa mekanisme ia mengenali apa yang Anda coba lakukan. Ia juga menolak untuk membuat "penembakan tipe Aronofsky" atau "zoom Hitchcock."

Di satu sisi, itu sangat masuk akal. Tetapi itu memicu pertanyaan: Jika Sora tahu apa itu, apakah itu berarti model tersebut dilatih pada konten tersebut, agar lebih baik mengenali bahwa itu melanggar hak cipta? OpenAI, yang menjaga data pelatihannya dekat dengan jas, hampir pasti tidak akan pernah memberi tahu kita.

Adapun Sora dan penggunaannya dalam pembuatan film, jelas merupakan alat yang kuat dan berguna di tempatnya, tetapi tempatnya bukanlah \"menciptakan film dari nol.\" Belum. Seperti yang pernah dikatakan oleh seorang penjahat terkenal, \"itu akan datang kemudian.\"