全球串流服務 Netflix公司 推出了 VOID,這是一個開源框架,旨在從視頻中移除對象,同時保留它們所創建的物理交互,從而解決傳統修復和對象擦除工具的局限性。
從歷史上看,從場景中移除物體並不難,但要確保移除後的環境動作自然流暢是一項巨大的挑戰。例如,刪除一個拿著吉他的人會導致吉他懸空,看起來很不自然;刪除一個跳水者會導致泳池中的水面紋絲不動。視覺特效團隊傳統上都是手動修正這類問題,這是一個耗時的過程,單一場景的修正可能需要數天甚至數週的時間。
VOID(全稱為 Video Object and Interaction Deletion,視訊物件和互動刪除)旨在解決這些問題。與僅僅填充缺失像素的傳統方法不同,該系統能夠預測移除物件後場景在物理上一致的結果。
它結合了多種技術來實現這一目標。谷歌的Gemini分析場景,辨識受刪除影響的區域,而Meta的SAM2則分割待移除的物件。這些輸出被編碼成一個四值掩模,該掩模是一個四值圖,指示哪些區域需要擦除、哪些區域重疊、哪些區域受到物理影響以及哪些區域保持不變。然後,基於阿里巴巴CogVideoX建構的視訊擴散模型以符合物理規律的方式重建場景。可選的第二次處理會應用光流法來校正初始重建中的任何失真。
VOID 的展示展現了令人信服的結果:移除固定器後,氣球會自然上升;刪除無關的方塊後,方塊仍能保持穩定;擦除人物後,泳池表面不受影響。在一項包含 25 名參與者的人類偏好研究中,VOID 的受歡迎程度達到了 64.8%,遠超領先的商業替代方案 Runway(僅獲得 18.4% 的青睞)。
此次發布標誌著 Netflix Research 的首款公開人工智慧工具正式上線。 VOID 採用 Apache 2.0 許可,可用於商業用途,並託管於 Hugging Face 平台。目前,由於硬體需求較高(運行該模型需要 40GB 記憶體的 GPU),VOID 的使用受到一定限制。但未來的最佳化和基礎設施成本的降低有望擴大其可用性。 VOID 代表著影片製作技術的變革,它從簡單的擦除工具發展到能夠理解並逼真地重建場景的系統,而這項發展對專業工作流程具有深遠的影響。
Source link


