Trans4D: Transisi Realistis Berbasis Geometri untuk Sintesis Teks-ke-4D Komposisional
Kemajuan terbaru dalam model difusi telah menunjukkan kemampuan luar biasa dalam menghasilkan gambar dan video, yang semakin meningkatkan efektivitas sintesis 4D. Metode generasi 4D yang ada dapat menghasilkan objek atau pemandangan 4D berkualitas tinggi berdasarkan kondisi yang ramah pengguna, sehingga menguntungkan industri game dan video. Namun, metode-metode ini kesulitan dalam mensintesis deformasi objek yang signifikan dari transisi dan interaksi 4D yang kompleks dalam adegan. Untuk mengatasi tantangan ini, kami mengusulkan Trans4D, sebuah kerangka sintesis teks-ke-4D baru yang memungkinkan transisi adegan kompleks yang realistis. Secara spesifik, kami pertama-tama menggunakan model bahasa besar multimodal (MLLM) untuk menghasilkan deskripsi adegan yang sadar fisika untuk inisialisasi adegan 4D dan perencanaan waktu transisi yang efektif. Kemudian kami mengusulkan jaringan transisi 4D yang sadar geometri untuk mewujudkan transisi 4D tingkat adegan yang kompleks berdasarkan rencana tersebut, yang melibatkan deformasi objek geometris yang ekspresif. Eksperimen ekstensif menunjukkan bahwa Trans4D secara konsisten mengungguli metode-metode terdepan yang ada dalam menghasilkan adegan 4D dengan transisi yang akurat dan berkualitas tinggi, memvalidasi efektivitasnya.
Subjek: Visi Komputer dan Pengenalan Pola (cs)