隨著模型能力的持續突破,AI視頻生成正從“工具屬性”走向“創作基礎設施”,推動視聽行業進入全新的生產階段。4月15日,在第十三屆中國網絡視聽大會新技術新場景論壇上,可靈AI產品及運營負責人溫園旭發表題為《技術升維·創作無界 可靈AI賦能視聽新生態》的主題演講,系統闡述了可靈AI在多模態技術演進、創作能力升級及產業落地方面的最新進展。

溫園旭表示,可靈AI始終以“技術賦能創作”為核心理念,致力于“讓靈感成真,讓想象成為影像,讓每個人都能用AI講出好故事”。
從多模態能力到全鏈路創作,構建一站式AI生產力引擎
在演講中,溫園旭首先介紹了可靈AI的產品體系。作為創意驅動的一站式AI生產力引擎,可靈AI已實現圖像生成、視頻生成、音頻生成三大核心能力的深度融合:通過圖像生成定義靜態要素,通過視頻生成實現動態控制,通過音頻生成補全敘事表達,打通從畫面到故事的完整鏈路。
“從一個創意輸入,到一整套視頻素材輸出,AI正在把專業級創作能力交到每一個人手中。”溫園旭指出,這種全鏈路能力的建立,標志著AI從單點生成工具邁向系統性創作平臺。
自2024年6月發布以來,可靈AI在不到兩年時間內完成30余次產品迭代,并實現8個關鍵技術里程碑。從全球首個用戶可用的DiT視頻生成模型,到支持1080P高清視頻創作,再到多模態交互能力的持續升級,可靈不斷推動底層模型能力躍遷。
目前,可靈已構建起統一的多模態視頻模型體系,并推出可靈3.0及3.0 Omni,實現多模態輸入與輸出的大一統能力,支持文生視頻、圖生視頻、參考生成及視頻修改等多種創作方式的統一底層架構。
基于這一架構,可靈AI進一步突破了原生多模態敘事能力,使模型能夠統一理解畫面、主體、聲音、鏡頭及敘事節奏之間的關系。同時,在角色一致性、鏡頭調度、音畫同步及多主體音色綁定等方面實現顯著提升,讓AI從“生成畫面”走向“理解故事”。
在動態表現層面,可靈AI也實現了動作控制能力的升級,支持更高一致性的角色表演與更自然流暢的動作生成,使數字角色具備接近專業動作捕捉的表現力。
深度融入視聽工業流程,釋放多場景應用價值
伴隨技術升級,可靈AI完成了從單一生成工具向全流程AI創意工作臺的轉型。溫園旭表示,過去AI創作中存在的功能分散、生成等待、效果不可控及協作困難等問題,正在被系統性解決。
當前,可靈AI已覆蓋從素材生成到完整創作流程的各個環節,并支持從個人創作到團隊協作的多場景需求,逐步成為適配專業機構與大眾創作者的通用創作平臺。
數據顯示,截至目前,可靈AI已服務超過6000萬創作者,累計生成視頻突破6億條,并服務超過3萬家企業用戶。根據快手2025年財報披露,可靈AI在2025年第四季度實現營收3.4億元,標志著AI視頻生成正從技術趨勢走向產業現實。
在具體應用層面,可靈AI已形成覆蓋視聽創作全流程的四大核心場景:前期概念開發與提案溝通、Pre-vis預演與風險前置、視效替代與鏡頭補完,以及角色驅動內容與IP擴展。
圍繞這些場景,可靈AI正加速在影視、廣告、音樂、文旅、游戲及動漫IP等領域落地。在影視領域,可靈已參與《太平年》、《大衛之家》等項目的制作;廣告營銷方面,可靈AI助力美團愚人節廣告《麻煩死了》在兩周內完成制作,實現接近實拍的視覺質感與完整敘事表達。音樂與游戲領域,可靈也通過虛擬藝人內容生產及與頭部游戲IP聯動,持續拓展創作邊界;在文旅場景中,可靈AI與河南廣電合作“何以唐宮夜宴”等項目,通過AI技術激活傳統文化表達,并取得顯著傳播效果。
與此同時,可靈還通過NEXTGEN全球新影像創作大賽匯聚來自122個國家和地區的4600余部作品,搭建全球化創作交流平臺,推動AI影像成為跨文化的視覺語言。
以技術為底座,開啟AI創作新階段
面向未來,溫園旭表示,可靈AI將持續圍繞多模態大一統模型、原生敘事能力與精準動作控制等方向不斷突破,持續拓展AI在視聽創作中的表達邊界。
“技術在升維,創作無邊界。”溫園旭強調,AI的終極使命不是取代創作,而是讓更多人擁有表達的能力。隨著技術與創作的深度融合,一個“人人皆可導演”的時代正在到來,AI敘事的新階段也正在加速開啟。
