在2026年谷歌i/o大會的第一天,谷歌揭曉了其劃時代的全新多模態大型模型——gemini omni,標誌著人工智慧能力邁入一個以全場景、跨模態協作為特徵的新紀元。deepmind共同創辦人兼執行長、人工智慧領域的領軍人物德米斯·哈薩比斯在台上宣布,這是最強大、最統一、且直覺上極似人類的原生多模態架構。
「omni」這個名稱不僅象徵著全方位的涵蓋,更體現了一項根本性的突破:真正的跨模態語義對齊與雙向生成。無論是透過文字指令重新詮釋影片角色、藉由音訊輸入即時轉移視覺風格,還是利用靜態圖像驅動動態敘事邏輯,gemini omni都能以高保真度與精準控制,端到端地完成這些任務。其初始的輕量版——gemini omni flash——已全面上線於gemini應用程式、google flow及youtube shorts,隨時可供使用;未來將分階段推出完整的開發者api介面。
業界普遍認為,這款模型正推動人工智慧從感知與理解的層次,躍升至具體創意產出的境界,將專業級影片剪輯壓縮為自然語言互動,大幅降低創意表達的技術門檻,並重塑內容創作的典範。