Netflix 發布 VOID：用於實體一致性視訊物件移除的開源框架

全球串流服務 Netflix公司推出了 VOID，這是一個開源框架，旨在從視頻中移除對象，同時保留它們所創建的物理交互，從而解決傳統修復和對象擦除工具的局限性。

從歷史上看，從場景中移除物體並不難，但要確保移除後的環境動作自然流暢是一項巨大的挑戰。例如，刪除一個拿著吉他的人會導致吉他懸空，看起來很不自然；刪除一個跳水者會導致泳池中的水面紋絲不動。視覺特效團隊傳統上都是手動修正這類問題，這是一個耗時的過程，單一場景的修正可能需要數天甚至數週的時間。

VOID（全稱為 Video Object and Interaction Deletion，視訊物件和互動刪除）旨在解決這些問題。與僅僅填充缺失像素的傳統方法不同，該系統能夠預測移除物件後場景在物理上一致的結果。

它結合了多種技術來實現這一目標。谷歌的Gemini分析場景，辨識受刪除影響的區域，而Meta的SAM2則分割待移除的物件。這些輸出被編碼成一個四值掩模，該掩模是一個四值圖，指示哪些區域需要擦除、哪些區域重疊、哪些區域受到物理影響以及哪些區域保持不變。然後，基於阿里巴巴CogVideoX建構的視訊擴散模型以符合物理規律的方式重建場景。可選的第二次處理會應用光流法來校正初始重建中的任何失真。

影片製作中實體一致性物件移除的演示

VOID 的展示展現了令人信服的結果：移除固定器後，氣球會自然上升；刪除無關的方塊後，方塊仍能保持穩定；擦除人物後，泳池表面不受影響。在一項包含 25 名參與者的人類偏好研究中，VOID 的受歡迎程度達到了 64.8%，遠超領先的商業替代方案 Runway（僅獲得 18.4% 的青睞）。

此次發布標誌著 Netflix Research 的首款公開人工智慧工具正式上線。 VOID 採用 Apache 2.0 許可，可用於商業用途，並託管於 Hugging Face 平台。目前，由於硬體需求較高（運行該模型需要 40GB 記憶體的 GPU），VOID 的使用受到一定限制。但未來的最佳化和基礎設施成本的降低有望擴大其可用性。 VOID 代表著影片製作技術的變革，它從簡單的擦除工具發展到能夠理解並逼真地重建場景的系統，而這項發展對專業工作流程具有深遠的影響。