科技日報記者 楊雪
2026馬年春晚為大家帶來一場名副其實的“藝術+技術”盛宴。舞美設計中,AI、AR、XR等技術手段的靈活運用,在虛實之間營造出“人在景中、景隨人動”的沉浸立體式視覺效果。大模型首次深度參與到多個春晚節目的創意構思與視覺呈現環節,與導演組、制作團隊共同探索了生成式AI在大型舞臺藝術創作中的應用邊界。
據報道,此次大模型視頻生成、圖像生成、空間視頻等技術支持由火山引擎提供。記者從字節跳動了解到,Seedance2.0推出之前,就在為多個春晚節目進行深度定制,春晚也是Seedance2.0的第一個用戶。那么,大模型技術到底如何參與春晚舞臺的藝術創作?3D數字分身的奇幻舞臺是怎樣實現的?“AI互動”是什么,與過去搖一搖搶紅包又有啥區別?
第一問:大模型技術如何參與春晚舞臺的藝術創作?
以節目《馭風歌》為例,歌手身后的背景是一幅水墨畫風格的視頻畫面。這是本次春晚AI參與度最深、技術挑戰最大的節目之一。讓水墨風格的素材在舞臺背景畫中靈動起來,是對模型的國風美學理解和泛化能力的巨大考驗。此前,很多國際領先的視頻生成模型都難以理解中國水墨畫的構圖和邏輯,生成視頻容易出現變形。
seedance2.0不僅精準保持了水墨畫的風格,還保證了素材動態的舒展與自然,做到“形神兼備”。火山引擎相關負責人介紹,這得益于多模態視頻生成能力。比如,模型的物理特性遵循,讓每匹馬的奔跑都遵循自然規律,動作流暢無僵硬感,加速與減速符合物理邏輯,節奏充滿力量感與韻律;語義理解能力的顯著增強,讓模型可以對動作、表情、運鏡、文字內容精準執行,精準響應“輕輕地”“再輕一點”等動態副詞,根據細節需求調整每個畫面;模型能同時處理圖片、視頻、音頻等多種素材,訓練中加入大量中國傳統文化語料(京劇、水墨、傳統繪畫),讓模型理解水墨藝術邏輯。
在視頻生成前,靜態的關鍵幀和分鏡設計則由豆包圖像創作模型Seedream4.5完成。它能夠深刻理解水墨畫的藝術風格,并根據導演的草圖布局,生成兼具原畫神韻與新構圖的靜態圖像,為后續的視頻生成提供了高質量“藍本”。
第二問:3D數字分身的奇幻舞臺是怎樣實現的?
在節目《夢底》中,演員實現了“多個自己”在舞臺上不同位置同時表演的震撼場面。當鏡頭從側面掃過時,能清晰看到每一個數字分身側臉的輪廓和光影,而非一張簡單的“紙片人”。
這種“真人3D克隆”的視覺效果來自火山引擎空間視頻技術。據介紹,首先,演員在專業環繞式采集棚中完成表演,現場的70臺工業級高分辨率相機陣列會從不同角度同步捕捉其動態,為后續的四維重建提供高質量、多視角的原始視頻數據。然后,這些數據被送入云端,通過火山引擎自研的空間視頻4DGS(4D高斯潑濺)重建算法,將演員的表演重建為4D數字資產。最后,這些資產導入Unreal Engine(UE)或Unity等主流游戲引擎,根據現場導播系統和燈光控制臺傳來的實時數據,進行實時同步渲染,最終將虛實結合的畫面輸出到直播流中。
虛擬的數字人與現場真實燈光“天衣無縫”的背后,是一套被稱為“DMX”的舞臺燈光控制協議。火山引擎通過實時轉譯現場的DMX信號,驅動虛擬場景中的虛擬燈光,使其與物理燈光毫秒級響應,從而渲染出完全同步的光影效果,確保數字人“活”在真實的環境中。
同時,結合豆包的Seed3D和DA3模型:前者提前為演員的每一幀生成一個簡化的、不可見的“幾何外殼”,渲染時,系統只需計算這個極簡“外殼”的影子,計算量大幅降低,渲染效率大幅提升;后者為光影計算提供了極穩定和準確的“先驗知識”,從根本上保證了演員在近景下皮膚質感與光影過渡的細膩真實。
第三問:“AI互動”是什么,與過去搖一搖搶紅包有啥區別?
傳統的互聯網互動遵循預設規則——類似一個自動售貨機,用戶點擊一個按鈕,系統從預先準備好的貨架上取出一個確定的商品。這個結果是有限的、可窮舉的,系統只需做好高并發的“存取”操作。
豆包App在春晚提供的AI互動則更像一個能夠自由創作的機器人。據介紹,它能先感知、再規劃、后行動。首先“聽懂”用戶的開放式指令,比如“給我生成一個馬年頭像”“寫一段拜年祝福語”等,并能感知多模態的信息,如用戶上傳自己的圖片。接收到指令后,自主“規劃”一個復雜的執行鏈路,例如生成一張圖片可能需要依次調用意圖理解模型、安全審核模型、圖片生成模型等多個模型和工具。最終執行規劃,實時生成前所未見的、高度個性化的內容(文字、圖片等),并將結果呈現給用戶。
這種開放式、實時生成、多模態的特性,正是AI Agent(智能體)的核心能力,也構成了“AI互動”與傳統“固定規則交互”的本質不同,為每一個用戶,在每一個瞬間,進行一次獨一無二的“實時創作”。

網友評論