重點摘要
Netflix 第一個開源模型——不只刪物件,還懂物理
VOID 用四值 Quadmask 語意遮罩與兩階段物理感知推理,讓移除後的物理後果(如物體落下)自然呈現,人類偏好率 64.8% 大幅領先 Runway 的 18.4%。
推理需 40GB+ VRAM(A100 等級),目前無官方量化版本,社群正積極開發 GGUF 與 ComfyUI 整合,量化版普及前個人開發者門檻較高。
開放權重、免費下載,適合影視後製和廣告製作場景;中小團隊可等社群量化版後在雲端 GPU 試用,無需等待商業授權。
前情提要
Netflix 的開源首秀:VOID 模型登場
Netflix 向來以封閉的推薦演算法和串流技術著稱,從未主動將核心 AI 模型公開。2026 年 4 月 3 日,這個慣例被打破:Netflix 攜手保加利亞 INSAIT / Sofia University 的 15 位研究者,在 Hugging Face 發布首個開放權重模型 VOID(Video Object and Interaction Deletion) 。
這不只是一個技術發布,更是 Netflix 向開源社群宣示存在的訊號。GitHub 倉庫 (Netflix/void-model) 上線即獲 167+ stars,HuggingFace 模型頁與論文頁同步引發熱議,r/LocalLLaMA 討論串迅速聚攏大量開發者關注,成為 Netflix 首次在 AI 開源社群留下印記的歷史時刻。
技術解析:影片物件刪除與互動消除
現有的影片修補 (inpainting) 技術只能填補「物件佔據的像素空間」,無法處理物件移除後的物理後果。VOID 的核心突破在於:它能理解移除動作所引發的物理連鎖反應——移除一個拿著吉他的人,吉他不會懸空,而是依物理規律自然落下。
名詞解釋
Inpainting:影像修補技術,指填充遮罩區域的像素,使畫面看起來完整自然。傳統方法只處理靜態「洞」,無法感知移除後的動態物理效應。
VOID 基於 CogVideoX-Fun-V1.5-5b-InP 微調,引入 Quadmask 四值語意遮罩條件控制:0 代表主要刪除物件,63 代表重疊區域,127 代表受影響的物理互動範圍(如被移除人物手持物落下的軌跡),255 為背景保留區域。這套四值設計是 VOID 能感知物理互動的關鍵技術基礎。
兩階段推理 Pipeline 進一步確保時序一致性:Pass 1 執行基礎 inpainting 去除主物件;Pass 2 以光流翹曲 (optical flow-warped) 潛在向量細化長序列的物理連貫性,搭配 Multidiffusion 85 幀滑動視窗處理任意長度影片。訓練資料來自 HUMOTO(Blender 物理模擬)和 Kubric(Google Scanned Objects 合成場景)兩條 Pipeline,確保模型學習真實物理互動規律。
名詞解釋
光流 (Optical Flow):描述影片相鄰幀之間像素移動方向與速度的向量場,VOID 用它確保 Pass 2 生成的幀與前後幀在動態上保持一致。
社群熱議:從 Chaos Engineering 到影片 AI
r/LocalLLaMA 討論串中,最高票留言不約而同將 VOID 與 Netflix 的工程文化連結。有開發者熱情呼應「混沌工程 (Chaos Engineering) 」——這是 Netflix 在十多年前貢獻給業界的開源遺產,讓許多工程師第一次認識韌性工程的概念,Chaos Monkey 也因此成為 SRE 社群的經典工具。
名詞解釋
Chaos Engineering(混沌工程):Netflix 開創的工程實踐,透過在生產環境主動注入故障(如隨機殺掉伺服器)來驗證系統韌性。Chaos Monkey 是其代表性開源工具。
社群另一個焦點是硬體門檻:VOID 推理需 40GB+ VRAM(A100 等級),對個人開發者幾乎不可及。多位使用者在討論串表示正在等待社群量化版本(GGUF/Q4 等)及 ComfyUI KJ nodes 整合,這折射出開源影片 AI 的典型生命週期——研究機構釋出高精度模型,社群接手量化、包裝 UI、降低門檻,最終形成廣泛可及的工具鏈。
影片編輯 AI 競爭格局:從生成到精準刪除
影片 AI 的主戰場過去集中在「從零生成」 (text-to-video) ,但精準刪除與物理感知修補代表一條不同的技術路線——面向專業後製、廣告剪輯、視覺效果工作室。VOID 在人類偏好測試(25 位參與者)中獲 64.8% 偏好率,遠超 Runway(18.4%) ,確立了技術領先地位。
論文將 VOID 的框架定位為「透過高層次因果推理的世界模擬器」,意味著影片編輯模型未來可能不只是填像素的工具,而是理解因果關係的場景推理引擎。
對影視後製產業而言,VOID 的開放權重策略讓中小型製作公司有機會不依賴 Runway 等商業服務,將物理感知修補整合進自有工作流程,進一步推動影片 AI 工具的民主化。
核心技術深挖
VOID 的技術棧在三個層次展現創新:語意分解、物理感知生成、時序一致性。三者合力解決了傳統 inpainting 模型「只補洞、不懂物理」的根本限制。
機制 1:Quadmask 語意遮罩
傳統 inpainting 只需一個二值遮罩(0=填補,1=保留)。VOID 引入四值語意遮罩,讓模型能區分「主要刪除物件」 (0) 、「重疊干擾區」 (63) 、「受影響的物理互動範圍」 (127) 、「完全保留背景」 (255) 。
這套設計讓模型在訓練時學習到不同區域的語意差異,推理時能針對各區域採取不同的生成策略,是 VOID 技術突破的核心基礎。
白話比喻
就像外科手術的術野標記:紅色是要切除的腫瘤,黃色是周邊組織要小心,綠色是絕對不能碰的血管——VOID 用四種值告訴模型「這裡要刪、這裡要注意、這裡會受影響、這裡別動」。
機制 2:兩階段物理感知推理
Pass 1 執行基礎 inpainting,去除主物件並消除直接影響(陰影、反射)。Pass 2 以光流翹曲潛在向量 (optical flow-warped latents) 作為帶噪初始化,讓後續幀的生成「知道」前一幀的運動方向,從而維持長序列中物理動態的一致性。
兩階段設計讓單次推理同時兼顧「全局語意正確」和「逐幀物理連貫」,這是現有單階段 inpainting 方法難以達到的平衡點。
機制 3:Multidiffusion 滑動視窗
長影片處理一直是擴散模型的難題。VOID 採用 Multidiffusion 方式,以 85 幀滑動視窗逐段處理,窗口間有重疊確保邊界平滑,讓模型能在 40GB+ VRAM 範圍內處理任意長度的影片。
名詞解釋
Multidiffusion:一種將擴散生成過程分塊處理後合併的技術,讓模型能突破固定幀數限制,處理更長的影片序列,同時保持視窗邊界的視覺一致性。
工程視角
環境需求
Python 3.10+,CUDA 12.x,40GB+ VRAM(A100 80GB 為建議配置)。官方倉庫提供 pip 安裝路徑,基礎架構依賴 CogVideoX 與 diffusers。目前無官方量化版本,社群 GGUF 版本仍在開發中,低 VRAM 部署方案需等待社群進展。
最小 PoC
# 安裝依賴:pip install -r requirements.txt
from void_model import VOIDPipeline
pipeline = VOIDPipeline.from_pretrained("netflix/void-model")
result = pipeline(
video="input.mp4",
quadmask="mask.mp4", # 四值遮罩影片:0/63/127/255
num_inference_steps=50,
)
result.export("output.mp4")
驗測規劃
建議使用官方示範影片與對應 Quadmask 進行基準測試,與 DiffuEraser 輸出並排比較時序一致性。重點觀測:Pass 2 後物理連貫性(物體落點是否合理)、邊緣是否出現光暈 (halo artifact) 、85 幀視窗邊界是否有跳幀感。
常見陷阱
- Quadmask 四值必須精確 (0/63/127/255) ,中間值會導致生成結果不穩定
- 85 幀滑動視窗的重疊比例影響邊界平滑度,調低重疊比例易出現跳幀
- 移除快速運動物件時,Pass 1 殘影需靠 Pass 2 修正,但 Pass 2 光流品質高度依賴前景遮罩精度
上線檢核清單
- 觀測:逐幀 PSNR/SSIM 指標、人類主觀評估(建議至少 5 位)、邊界光暈比例
- 成本:A100 80GB 雲端推理約 $2-5/分鐘影片(視片長與解析度)
- 風險:VRAM OOM(超 85 幀連續場景需分段)、Quadmask 製備工作量高(需人工標注或自動遮罩工具輔助)
商業視角
競爭版圖
- 直接競品:Runway Gen-3 Alpha(商業 text-to-edit 整合方案)、Adobe Firefly Video(企業整合)、DiffuEraser / ProPainter / ROSE(學術開源,技術指標落後)
- 間接競品:After Effects + Mocha(傳統 roto 工作流)、Topaz Video AI(消費級影片增強)
護城河類型
- 工程護城河:Quadmask + 兩階段物理感知推理是非直覺的架構選擇,競品複製需大量 R&D 投入與高品質物理模擬訓練資料
- 生態護城河:Netflix 品牌背書具強烈信任效應;HUMOTO / Kubric 訓練 Pipeline 若持續開放,將建立資料飛輪優勢
定價策略
VOID 採開放權重 (open-weight) 策略,模型免費下載使用,無商業限制。Netflix 的動機更可能是技術品牌建設與頂尖研究人才招募,而非直接商業化。
開放模型同時為 Netflix 建立「AI 研究可信度」,有助於未來可能的企業 API 服務鋪路,也向業界展示其技術深度。
企業導入阻力
- 40GB+ VRAM 硬體門檻使中小製作公司難以自建推理環境,需依賴雲端 GPU 服務,增加運營成本
- Quadmask 製備流程尚無成熟自動化工具,需人工標注或額外開發遮罩提取 Pipeline,提高整合成本
第二序影響
- 開源版本問世後,商業 inpainting 服務(如 Runway)面臨定價下行壓力,需加速差異化功能開發
- 影視製作公司可能將 VOID 整合進自有工作流程,減少對 SaaS 後製工具的依賴,推動工具內部化趨勢
判決:技術領先確立,商業普及待量化版就緒(先觀望生產部署)
VOID 以 64.8% 對 18.4% 大幅領先 Runway,技術層面已確立優勢。但 40GB VRAM 門檻與缺乏量化版本,使大規模採用仍需等待社群 ecosystem 成熟;量化版上線後預計將快速進入主流後製工作流。
數據與對比
人類偏好測試(25 位參與者)
- VOID:64.8% 偏好率
- Runway Gen-3 Alpha:18.4% 偏好率
- DiffuEraser / ROSE / ProPainter:均低於 VOID
推理資源需求
- VRAM:40GB+(建議 A100 80GB)
- 訓練配置:8× A100 80GB + DeepSpeed ZeRO stage 2
- 目前無官方量化版本,社群 GGUF 版本仍在開發中
最佳 vs 最差場景
推薦用
- 影視後製物件移除(去除路人、清除場景雜物,物理後果自然呈現)
- 廣告影片快速去背修補,無需重拍場景
- 研究用反事實影片生成,建立物理模擬訓練資料集
- 視覺效果工作室取代傳統 roto + fill 工作流
千萬別用
- 即時 (real-time) 影片處理,40GB VRAM 不支援串流推理
- 消費級低 VRAM 設備 (<16GB) ,量化版普及前無法本地運行
- 短影音平台大批量快速處理,推理成本過高
唱反調
40GB VRAM 的硬體門檻讓絕大多數開發者無法本地試用,「開放權重」在實際可及性上等同高階商業服務,並非真正民主化的開源
人類偏好測試僅 25 位參與者,樣本過小,難以作為技術優越性的統計可靠依據;且論文為 arXiv 預印本,尚未經同儕審查
社群風向
好愛 Chaos Monkey!他們讓我認識了混沌工程 ❤️
聽起來就像老天爺對我日常生活所做的事,差別是我不會培養韌性。
等待量化支援和 kj nodes,讓它能在低 VRAM 環境運行
Netflix 悄悄發布了 VOID,這個模型能從影片中移除物件,並用真實物理規律模擬後續狀況。移除一個拿著吉他的人,吉他就會掉落;移除拿著馬克杯的人,杯子也會跟著落下。
netflix/void-model(開放權重) VOID 能從影片中移除物件,以及物件所引發的所有互動——不只是陰影和反射等次要效果,更包含物理互動,例如移除人物後物體因重力下落。
炒作指數
行動建議
在 HuggingFace 下載 netflix/void-model,用官方示範影片跑通兩階段推理流程,觀察 Quadmask 四值設定對生成品質的影響
開發自動化 Quadmask 生成工具(結合 SAM 2 或 Grounding DINO),讓 VOID 的物件標注工作流程自動化,降低人工標注成本
追蹤社群量化進展 (GGUF/Q4) 及 ComfyUI KJ nodes 整合,低 VRAM 支援到位後再評估生產環境部署可行性