教學:微軟 MAI-Image 2.5 新 AI 製圖免費玩 免 VPN 生成繁體中文圖 附寫 Prompt 教學

在香港使用 AI 生成圖片,可能第一時間想到 Gemini Nano Banana,或者用 VPN 使用 ChatGPT images 2.0。今天我們介紹微軟最新發表的文字轉圖像模型 MAI-Image 2.5,日前更在極具公信力的 Arena AI 影像盲測排行榜中衝上全球第三名,官方強調全新版本在文字渲染、場景結構、照明光影以及空間大小比例的推論能力上,都迎來了爆發性的升級。小編決定用極高難度的香港本土場景、全繁體中文圖表以及複雜的多人場景進行極限實測,看看這款新模型的實力。

▲ 本文將實測 MAI-Image 2.5 功能

▲ 官方強調 MAI-Image 2.5 在文字渲染、場景結構、照明光影以及空間大小比例都迎來了爆發性的升級 ( MAI )

馬上免費玩微軟最新 AI 製圖模型

如果想第一時間親自體驗這款空降前三模型的威力,可以直接透過 Arena AI 的定向功能鎖定新模型進行測試。前往 Arena AI 平台的文字生成圖像盲測頁面後,需要先在右上角進行簡單的帳戶登入以維持平台公正性。登入成功後,將頂部的功能分頁切換至「Direct」,便能在模型選單中搜尋並選取「MAI-Image-2.5-preview」。最後直接在對話框輸入剛才提到的中文指令,系統就會百分之百調用微軟的全新模型輸出成品,非常方便大家測試各種創意。微軟官方亦透露,新模型將會在未來兩週內部署到內部的 MAI Playground 和 Foundry 平台,預計很快也會正式整合到日常使用的 Copilot 工具之中。

Arena 連結:https://arena.ai/image/direct

▲ 進入 Arena 網站後,先在左上角選擇模式

▲選擇「Direct」

▲ 再在左上角選擇模型

▲輸入 MAI 便可以找到「MAI-Image 2.5 」,開始使用

實測一:人像測試

在使用 AI 生成圖像時,畫面能否呈現出足夠的氛圍感,往往是決定作品成敗的關鍵,同時人物與環境的比例也是不容忽視的考驗。多人聚會時的肢體交疊、環境氣氛以及空間比例,正是測試 AI 空間感知與美學推論的重要指標。小編首先實測一幅有復古風格的群眾野餐相,讀者們可以嘗試複製以下指令進行測試。

實測 Prompt 參考:

「一群年輕優雅的亞洲女性,正在陽光灑落的青綠草地上悠閒地躺著享受野餐。周圍鋪著經典的紅白格紋野餐墊,上面精緻地擺放著新鮮水果、藤編野餐籃、幾瓶復古玻璃瓶氣泡水與切開的法式麵包。陽光透過樹葉的縫隙形成柔和的顆粒感光影,溫暖地照亮她們充滿笑意的面容與輕盈的復古碎花連身裙。整體畫面色彩飽和度微低,帶有懷舊的膠片色調與極具氛圍感的美學層次。」

▲打開 Arena,就像平時用 Gemini / ChatGPT 生成圖片一樣,在對話框輸入指令,之後發出指令

結果評價:

▲ 生成時間需要大概兩分鐘,比起 Gemini 和 ChatGPT 久

小編實際測試後的成品,在氛圍營造上近乎無懈可擊。畫面呈現出非常自然的暖色調與底片顆粒感,陽光穿透樹葉縫隙灑落的光影層次極佳。在物理空間的推論上,野餐墊隨草地起伏的自然皺褶,以及長棍麵包、藤編箱、玻璃瓶之間的比例,均展現出媲美商業攝影的即用級質感。不過,畫面中四位女主角的面容顯得過於相似,看起來宛如複製人或多胞胎。這正是目前許多頂尖影像模型在處理多人亞洲面孔時常見的「同質化」通病,模型在解讀籠統的指令時,容易調用同一個最合符標準的美學特徵,因而導致了「集體撞臉」的現象。

通用 Prompt(讀者可以直接複製貼上試玩):

一張具有電影質感、極寫實風格的照片。畫面中央是[畫面主體],正在[動作與狀態]。周圍環境[環境細節與精緻道具]。[光影與細部渲染],溫暖且細緻地照亮[主體的特寫細節]。整體畫面色彩飽和度微低,帶有[畫面色彩與攝影風格]與極具氛圍感的美學層次。

▲大概要兩分鐘生成一張

實測二:全繁體中文排版挑戰

常去日本的朋友,一定見過當地地鐵站內的廣告,通常只用一張具感染力的圖片,配上簡潔有力的垂直標語。我們要求 AI 採用這種風格,生成一張年輕日本女性在露天和風浴場泡溫泉的廣告相,挑戰它處理水汽透明感與精確網格排版的能力。

實測 Prompt 參考:

「一張專業的日本 JR 地鐵站廣告海報排版。主視覺是一位年輕日本女性在露天和風浴場泡溫泉的側面照,光影呈現出日系感,細緻的水珠與蒸汽效果。排版需嚴格遵守日式極簡網格:右側配合優雅的垂直繁體中文標語『極致療癒:冬日溫泉物語』,海報底部留有乾淨的空白區並帶有微小的模擬企業 Logo 標識。整體呈現出像日本鐵路車站見到的那種高質感、清爽且專業的商業設計。」

結果評價:

▲ 女子肩頭細密的水珠自然

最終生成的作品在排版與字體呈現上表現相當成熟。右側垂直排列的繁體中文標語「極致療癒:冬日溫泉物語」字形端正,排版間距分明。另外,配合左方溫泉岩石自然蒸騰的蒸汽霧氣,以及女子肩頭細密的水珠,整張海報在視覺平衡與美學層次上均有不俗的表現,已相當接近真實商業海報的設計水平。

通用 Prompt(讀者可以直接複製貼上試玩):

「[主題物件/模特兒] 在 [場景設定] 的寫真照,風格為 [如:日式極簡 / 港式懷舊] 的商業海報。排版需預留大面積留白,在 [左側/右側] 加上垂直排列的繁體中文標語:『[標語內容]』。海報底部需設有極簡的白色資訊欄,包含模擬商標與網址。強調自然光影與專業排版。」

實測三:專業 Infographic 製作

之後我們嘗試生成一張包含大量文字與箭頭指引的醫學科普圖表。指令要求製作一張關於「熬夜的代價」的 Infographic,需要有中央的人體剪影,並在四周排列四個傷害說明的圖表框。

實測 Prompt 參考:

「一張專業的醫學科普 Infographic 資訊圖表,主題是『遲瞓對身體的影響』。排版需整齊美觀,中間有一個人體輪廓示意圖。圖表需包含四個重點標註,並用繁體中文寫上標題:1. 記憶衰退、2. 皮膚暗沉、3. 免疫下降、4. 情緒不穩。主標題為『熬夜的代價』。風格採用現代扁平化設計(Modern Flat Design),色彩簡約專業」

結果評價:

▲大部分段落說明大致可讀,部分中文字有錯字亂碼

圖表嚴格遵守了網格排版美學,四個角落的圓角矩形標題框、對應的圖標,以及拉線精準對齊人體各器官的位置,結構有條不紊。然而,若細心觀察當中的文字,便會發現它依然避不開中文生圖的硬傷。雖然大標題和大部分段落說明大致可讀,但仔細看就會發現部分中文字出現了明顯的筆劃變形與錯字亂碼。

通用 Prompt(讀者可以直接複製貼上試玩):

「一張關於 [主題內容] 的專業 Infographic 資訊圖表。採用 [風格,如:現代扁平化 / 簡約手繪] 佈局,畫面中央為 [核心主體]。圖表需包含 [數量] 個重點資訊區塊,並以繁體中文標註:1. [點 1]、2. [點 2]、3. [點 3] 等。主標題為『[大標題]』。確保排版整齊,視覺引導清晰」

同場加映:與 ChatGPT 比較

如果拿來與 ChatGPT 生成的同款圖表進行對比,兩者的差距便高下立見。ChatGPT 輸出的圖表在繁體中文渲染上幾乎達到了完美無瑕的水平,由大標題、四個病徵的長段落解釋,到最底部的健康建議欄與警告標語,都完全沒有任何錯別字或亂碼。在畫面豐富度上,ChatGPT 除了中央的人體器官解剖圖外,還自動波在各個板塊中加入了極具質感的輔助插圖,例如左上角正在深夜工作的疲憊男子、右上角出現黑眼圈的女生面容等。

▲ChatGPT 生成的圖畫更豐富

實測四:雙重能力極限挑戰 文字標註與高質感生圖

緊接著,小編設計了更具代表性的雙重挑戰,重點評估模型同時處理「精準文字排版」與「高品質影像生成」的綜合實力。

實測 Prompt 參考:

「一張高端時尚雜誌風格的寫實照片。畫面中央是一位長頭髮,身材好的時尚亞洲女性,身穿一件極具歐美街頭風格的黑色寬鬆皮革外套(Oversized Leather Jacket)與一副復古金屬太陽眼鏡(Chrome Sunglasses)。主體右側有兩條精細的白色指向線,分別指向她的墨鏡與外套,指向線末端帶有清晰且正確的繁體中文字體標註:「金屬太陽眼鏡」與「寬鬆皮革外套」,字體呈現俐落的無襯線現代設計感。整體光影具有強烈的側光對比,細緻地勾勒出皮革的真實紋理與金屬配件的光澤。」

結果評價:

▲寬鬆皮革外套有錯字亂碼

圖片質感不錯,但「寬鬆皮革外套」有亂碼。

通用 Prompt(讀者可以直接複製貼上試玩):

一張具有[畫面風格, 如:高端時尚雜誌 / 科技產品開箱]風格的寫實照片。畫面中央是[畫面主體與外貌特徵],身穿/帶有極具風格的[核心物件 A]與[核心物件 B]。在畫面的[指向線位置, 如:主體右側 / 左側],延伸出兩條精細的[線條顏色]指向線,分別精準指向[核心物件 A]與[核心物件 B]。指向線末端帶有清晰且正確的[語言]字體標註:「[標籤 A 內容]」與「[標籤 B 內容]」,字體呈現[字型風格, 如:俐落的無襯線現代設計感]。整體光影具有[光影效果],細緻地勾勒出[材質細節]。

什麼是 Arena AI 平台?

這次微軟新模型衝上的 Arena AI 平台,被譽為目前 AI 生成領域最具公信力的競技場。與一般由官方自行公布的跑分數據不同,Arena AI 結合了全球真實用戶的群眾智慧。平台平常會隱去所有 AI 模型的名字讓用戶進行盲測投票,並採用類似國際象棋的 Elo 勝率計分制,因此 MAI-Image 2.5 能夠在強敵環伺下空降全球圖像榜第三位,含金量極高。

▲ Arena AI 界面

總結:中文細緻度仍需努力

經過多輪針對人像氛圍、版面結構與文字渲染的極限實測,微軟全新的 MAI-Image 2.5 展現出相當獨特的美學特質。這款新模型在處理畫面光影、物件材質、物理反光以及構圖幾何網格時,確實達到了行業內的領先水準。無論是野餐墊上的樹影婆娑、溫泉海報中晶瑩剔透的水珠,還是時尚大片裡皮革的質感,畫面細緻度與真實感都令人留下了深刻印象。尤其是其在平面排版和指向線對準上的空間邏輯推論,能極好地輔助版面佈局,為商業設計提供了相當高的參考價值。

然而,當談到本地化應用、特別是繁體中文的精確度時,新模型便顯露出明顯的局限。實測中頻頻出現的筆劃錯亂、漏字與亂碼,顯示出模型在中文細節上的訓練仍未臻完美,在此範疇顯然無法與幾乎能做到「零錯字」兼附帶精美插圖的 ChatGPT 相提並論。

Comments (0)
Add Comment