谷歌研究院推出瞭名為 Lumiere 的「文生視頻」擴散模型,使用瞭自傢的「Space-Time U-Net」基礎架構,能夠一次性生成「完整、真實、動作連貫」的視頻。相對於業界模型,Lumiere 在生成持續時間更長、動作更連貫的視頻方面有優勢。該 AI 模型基於預訓練的「文生圖」模型,通過空間超分辨率模型和「Multidiffusion」通用生成框架提升分幀分辨率和模型穩定性,保證瞭視頻的一致性和連續性。