Sonic4D: Generasi Audio Spasial untuk Eksplorasi Adegan 4D Imersif
Universitas Sains dan Teknologi Tiongkok
AAAI, 2026
*Menunjukkan Kontribusi Setara
Ringkasan
Sonic4D adalah kerangka kerja baru tanpa pelatihan yang memungkinkan generasi audio spasial untuk eksplorasi imersif dari adegan 4D. Ini menyediakan audio spasial yang masuk akal yang bervariasi di berbagai sudut pandang dan waktu.
Alur Kerja
Gambar: Alur Kerja Sonic4D. Kami mengusulkan kerangka kerja tiga tahap: 1) Generasi Adegan Dinamis dan Audio Monaural; 2) Lokalisasi dan Pelacakan Sumber Suara 3D; 3) Sintesis Audio Spasial Berbasis Fisika.
🎧 Silakan gunakan headphone dan naikkan volume untuk menikmati contoh. 🎧
Rendering Pandangan Tetap
Sonic4D memungkinkan pengguna mengamati adegan 4D dinamis dari sudut pandang kamera statis dan mensintesis audio binaural yang selaras secara spasial dengan posisi subjek (tidak terpusat).
Video Sumber + MMAudio: Seekor gagak biru di hutan.
Sonic4D: [Perbaiki kamera di kanan sambil memutarnya sedikit | x+1.5 & φ+5°]
Video Sumber + MMAudio: Seorang pria bermain ukulele di jalan.
Sonic4D: [Perbaiki kamera di kiri | x-1.0]
Video Sumber + MMAudio: Seorang biksu memukul ikan kayu.
Sonic4D: [Kamera tetap (tanpa pergerakan)]
Pelacakan Sumber Suara Dinamis
Sonic4D melacak lokasi dan lintasan 3D dari sumber suara, memungkinkan sintesis audio spasial yang secara konsisten mengikuti pergerakan subjek adegan.
Video Sumber + MMAudio: Sebuah helikopter melayang di udara.
Sonic4D: [Kamera tetap (tanpa pergerakan)]
Video Sumber + MMAudio: Mobil F1 melaju kencang di lintasan.
Sonic4D: [Kamera tetap (tanpa pergerakan)]
Video Sumber + MMAudio: Traktor bergerak dari kiri ke kanan.
Sonic4D: [Kamera tetap (tanpa pergerakan)]
Video Sumber + MMAudio: Kereta bersiul saat memasuki stasiun.
Sonic4D: [Kamera tetap (tanpa pergerakan)]
Lintasan Kamera Dinamis
Sonic4D mendukung lintasan kamera yang beragam dan dapat disesuaikan sambil menjaga konsistensi audio spasial dengan sudut pandang yang berubah, memberikan pengalaman audiovisual imersif.
Video Sumber + MMAudio: Penabuh drum memainkan drum Afrika.
Sonic4D: [Orbit kamera di sekitar subjek | φ-20° → φ+0° → φ+20°]
Video Sumber + MMAudio: Sebuah mobil melaju pergi.
Sonic4D: [Pan kamera ke kanan | x+0 → x+2.0]
Video Sumber + MMAudio: Seorang pria bermain piano.
Sonic4D: [Menyapu dari kiri atas ke tengah bawah dan ke kanan atas | φ-30°, θ+20° → φ+0°, θ+0° → φ+30°, θ+20°]
Video Sumber + MMAudio: Seorang wanita bermain seruling.
Sonic4D: [Pan kamera ke kanan | x+0 → x+2.5]
Video Sumber + MMAudio: Kereta bergerak maju.
Sonic4D: [Orbit kamera di sekitar subjek | φ-20° → φ+0° → φ+20°]
Video Sumber + MMAudio: Air mancur memercik.
Sonic4D: [Pan kamera ke kanan | x+0 → x+2.0]
Dorong Masuk / Tarik Keluar
Sonic4D memungkinkan efek dorong masuk dan tarik keluar kamera relatif terhadap subjek, menciptakan variasi alami dalam amplitudo audio (yaitu, kenyaringan yang dirasakan) seiring perubahan jarak.
Video Sumber + MMAudio: Seorang bayi menangis.
Sonic4D: [Tarik kamera keluar | r+0 → r-0.8]
Video Sumber + MMAudio: Gunung berapi meletus.
Sonic4D: [Dorong kamera masuk | r+0 → r+0.8]
Video Sumber + MMAudio: Pianis bermain piano secara close-up.
Sonic4D: [Tarik kamera keluar | r+0 → r-0.8]
Abstrak
Kemajuan terkini dalam generasi 4D telah menunjukkan kemampuannya yang luar biasa dalam mensintesis render fotorealistik dari pemandangan 3D dinamis. Namun, meskipun mencapai kinerja visual yang mengesankan, hampir semua metode yang ada mengabaikan generasi audio spasial yang selaras dengan pemandangan 4D yang sesuai, menimbulkan keterbatasan signifikan untuk pengalaman audiovisual yang benar-benar imersif. Untuk mengatasi masalah ini, kami mengusulkan Sonic4D, sebuah kerangka kerja baru yang memungkinkan generasi audio spasial untuk eksplorasi imersif dari pemandangan 4D. Secara khusus, metode kami terdiri dari tiga tahap: 1) Untuk menangkap konten visual dinamis dan informasi pendengaran mentah dari video monokuler, pertama-tama kami menggunakan model ahli pra-latih untuk menghasilkan pemandangan 4D dan audio monaural yang sesuai. 2) Selanjutnya, untuk mengubah audio monaural menjadi audio spasial, kami melokalisasi dan melacak sumber suara dalam pemandangan 4D, di mana koordinat spasial 3D pada cap waktu yang berbeda diperkirakan melalui strategi penggambaran visual tingkat piksel. 3) Berdasarkan lokasi sumber suara yang diperkirakan, kami lebih lanjut mensintesis audio spasial yang masuk akal yang bervariasi di berbagai sudut pandang dan cap waktu menggunakan simulasi berbasis fisika. Eksperimen ekstensif telah menunjukkan bahwa metode yang kami usulkan menghasilkan audio spasial realistis yang konsisten dengan pemandangan 4D yang disintesis secara bebas pelatihan, secara signifikan meningkatkan pengalaman imersif bagi pengguna.
BibTeX
@article{xie2025sonic4d, title={Sonic4D: Spatial Audio Generation for Immersive 4D Scene Exploration}, author={Xie, Siyi and Zhu, Hanxin and He, Tianyu and Li, Xin and Chen, Zhibo}, journal={arXiv preprint arXiv:2506.15759}, year={2025}}