【實測】DeepSeek Janus-Pro-7B 可理解迷因、生成圖片 + 與 ChatGPT 比較

DeepSeek 稍早前 宣布推出名為 Janus-Pro 的開源多模態模型,劍指對手 DALL-E 3 和 Stable Diffusion。除了能夠「文生圖」外,更可閱讀並理解用戶上傳的文本、圖片等。現時你可以直接在網上使用這個模型,要求 Janus-Pro 替你分析、生成圖片等。下面小編會和大家分享如何使用 Janus Pro 7B 人工智能模型,另外亦會以 ChatGPT 與 Janus Pro 7B 比較。
▲DeepSeek Janus-Pro-7B 模型可以理解迷因,以下將會詳細示範
▲Janus-Pro-7B 主頁面

Step 1 註冊 Hugging Face 帳戶

要經 Hugging Face 使用 Janus-Pro-7B 的話,你可以先註冊 Hugging Face 帳戶,那麼就可享有更多 GPU 限額。如果你已註冊,就可以跳過此步驟。
Hugging Face 主頁連結:https://huggingface.co/
▲點擊「Sign Up」,依照指示完成登記會員便可使用

Step 2 開始使用 Janus Pro 7B

註冊後你就可以在 Hugging Face 使用 Janus Pro 7B 模型。

連結:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B

相關文章:

  • Arm CEO:DeepSeek 或會被美國封鎖 「連 TikTok 也禁止,沒理由允許 DeepSeek 在美營運」
  •  

  • CEO:「DeepSeek 自動化業務流程」 傳上美股份炒 95% 客服只留 5% 懂 AI 者
  •  

  • 國際象棋大師讓 AI 對決 ChatGPT 竟被 DeepSeek「呃」到投降
  •  

    多模型辨識功能

    DeepSeek Janus Pro 7B 模型可以辨析圖片內容後,向用家解釋圖片正在表達甚麼。下面小編會嘗試上傳一張迷因(meme),看看 Janus Pro 7B 能否正確解讀迷因內容。

     

    點擊左上角「Multimodal Understanding」,然後在指定位置上傳圖片,之後在「Question」輸入問題,要求 Janus Pro 解讀圖片內容,最後點擊「Chat」,稍等數秒鐘 Janus Pro 7B 就會在「Response」處回應你。

    實試:辨析迷因

    以下迷因意思是以「強壯柴犬(Swole Doge)」所代表的 1990 年代的電話遠比和「無助柴犬(cheems)」代表的 2020 年代智能電話優勝,讓我們將此迷因分享給 Janus Pro 7B,看看它能否辨認出迷因內容。

    Step 1 上傳迷因至 Janus Pro 7B

    首先將需要上傳的圖片拖曳至綠框,片刻後即可上傳至 Janus Pro 7B。

    ▲上傳需要分析的圖片

    相關文章:

  • Arm CEO:DeepSeek 或會被美國封鎖 「連 TikTok 也禁止,沒理由允許 DeepSeek 在美營運」
  •  

  • CEO:「DeepSeek 自動化業務流程」 傳上美股份炒 95% 客服只留 5% 懂 AI 者
  •  

  • 國際象棋大師讓 AI 對決 ChatGPT 竟被 DeepSeek「呃」到投降
  •  

    Step 2 提問並等候答案

    之後在①「Question」欄輸入你需要 Janus Pro 7B 為你解答的問題,然後點擊②「Chat」按鍵,讓 Janus Pro 7B 解答你的疑難。。

    ▲輸入問題

     

    小編的問題為:請以繁體中文詳細解釋這張圖片想說明甚麼

    ▲輸入問題後點擊 Chat

     

    視乎伺服器繁忙程度,一般僅需約 10 秒鐘就可完成分析。

    ▲稍後 10 秒

     

    Step 3 檢視答案

    倒計時完成後,你就可以在下面「Respond」位置看見 Janus Pro 7B 的分析結果。Janus Pro 7B 的分析結果與小編解讀相近。Janus Pro 7B 表示迷因而幽默的方式對比90年代與2020年的手機特性。小編最欣賞的是 Janus Pro 7B 能夠理解迷因裏「強壯柴犬(Swole Doge)」和「無助柴犬(cheems)」背後所代表的意思。強壯柴犬代表 90年代的手機堅固耐用,電池續航持久,抗摔耐衝擊;無助柴犬代表 2020年代的手機功能強大但脆弱,易碎、續航差、充電慢。Janus Pro 7B 解讀到迷因透過對比,風趣地呈現手機發展帶來的優勢與缺點。

     

    以下為 Janus Pro 7B 解讀結果原文:

     

    ▲Janus Pro 7B 分析結果

     

    比較 ChatGPT 辨析迷因功能

    小編將同一張迷因上傳至 ChatGPT,使用 GPT-4o 模型,利用同一句問題「請以繁體中文詳細解釋這張圖片想說明甚麼」要求 ChatGPT 替我解讀這個迷因。

    ▲使用同一迷因、同一問題

     

    ChatGPT成功辨認這張是 Doge 柴犬迷因,並指出圖片對比 1990 年代與 2020 年代手機的極端差異。ChatGPT 解讀到強壯 Doge 代表 90 年代手機,堅固耐用,電池續航超長;而脆弱 Doge 代表2020 年代手機,功能強大但脆弱。另外 ChatGPT 亦會具體引用並解釋迷因內的文字最後附以總結,扼要重述兩隻柴犬所代表的電話,並分享它認為圖片的幽默之處。下面為 ChatGPT 的回應:

    ▲ChatGPT 的回應(1/2)

    ▲ChatGPT 的回應(2/2)

     

    由上面可見,ChatGPT 亦可辨析迷因,而且解答比 Janus Pro 7B 更加詳細,另外亦會提供小總結。不過要留意, Janus Pro 7B 是個免費的 AI LLM,亦無須使用 VPN,因此小編覺得 Janus Pro 7B 回應較簡短亦可接受。

     

    實試:生成圖片

    Janus Pro 7B 亦可為你生成圖片。點擊上面「Text-to-Image Generation」即可利用文字生成圖片。
    ▲點擊「Text-to-Image Generation」

    小編用以下的 Prompt 嘗試叫生成 1920 年代女性的圖片:

     

    A detailed portrait of a woman in 1920s fashion, wearing a flapper dress adorned with intricate beadwork, elegant pearl necklace, and a stylish bob haircut with finger waves, slightly turned to the side, vintage sepia tone, standing in a dimly lit speakeasy with Art Deco elements, blurred figures in the background, soft spotlight highlighting her features, capturing the essence of the Jazz Age. Created Using: vintage photographic techniques, classic Hollywood lighting, soft-focus lens, subtle film grain, Edward Steichen-inspired lighting, hd quality, natural look

    ▲輸入完 Prompt 後,點擊「Generate Images」即可生成圖片

    生成圖片時間視乎伺服器繁忙程度,目前小編測試需時約 30 秒。

    ▲需時約 30 秒

     

    Janus Pro 7B 一次會生成 4 張圖片供用家選擇。

    ▲一次會生成 4 張圖片

     

    下面為 Janus Pro 7B 生成的圖片:

     


    相關文章:
  • Arm CEO:DeepSeek 或會被美國封鎖 「連 TikTok 也禁止,沒理由允許 DeepSeek 在美營運」
  •  

  • CEO:「DeepSeek 自動化業務流程」 傳上美股份炒 95% 客服只留 5% 懂 AI 者
  •  

  • 國際象棋大師讓 AI 對決 ChatGPT 竟被 DeepSeek「呃」到投降
  •  

    比較 DALL-E 生成圖片功能

    小編使用 ChatGPT 內置的 DALL-E GPT,輸入和剛才一模一樣的指令,DALL-E GPT 一次會生成 2 張圖片。下面是 DALL-E 生成的圖片結果:

    ▲DALL-E 會一次生成 2 張圖片

     

    以免費生成圖片 AI 來說,小編覺得 Janus Pro 7B 表現算是不俗,與 ChatGPT 的 DALL-E 相比亦不落下風。生成時間亦算是合理,使用 30 秒左右生成了 4 張圖片,而且 4 張圖片未見有崩壞問題,相比 DALL-E 亦更加真實。

     

    測試生成有版權圖片

    為測試 Janus Pro 7B 能否生成有版權的圖片,小編輸入了以下指令:

    Ironman and Captain America holding hands, walking along Hong Kong Victoria Harbour

    下面結果顯示,Janus Pro 7B 不會拒絕幫用家生成包括版權字眼的圖片。

     

    ▲可生成有版權的圖片

     

    下面為 Janus Pro 7B 生成的 4 張大圖。雖然粗略來看能夠辨認到圖片內兩個角色為 Ironman 及 Captain America,但放大看就會留意到很多穿崩處,人物面容扭曲,而且姿勢極不自然。

     

    測試使用 DALL-E 生成有版權圖片

    接下來我在 ChatGPT 的 DALL-E GPT 輸入相同指令,理所當然 DALL-E 會拒絕生成這些有版權爭議的圖片,但 DALL-E 就表示可以生成「類近」的圖片:

    ▲DALL-E 先拒絕小編的要求,然後表示可生成「類近」的圖片

    下面是 DALL-E 生成的圖片,小編覺得 DALL-E 生成的「Ironman」 幾似原版,但 Captain America 相似度就稍為遜色。

    ▲Ironman 幾似原裝,但 Captain America 就不太像……

    相關文章:

  • Arm CEO:DeepSeek 或會被美國封鎖 「連 TikTok 也禁止,沒理由允許 DeepSeek 在美營運」
  •  

  • CEO:「DeepSeek 自動化業務流程」 傳上美股份炒 95% 客服只留 5% 懂 AI 者
  •  

  • 國際象棋大師讓 AI 對決 ChatGPT 竟被 DeepSeek「呃」到投降
  •  

    總結:免費 AI 圖片分析功能準確 惟生成功能有待改善

    Janus Pro 7B 圖片辨析功能非常利害,即使是迷因也可準確解讀,並了解到迷因幽默之處。生成圖片方面,Janus Pro 7B 可以生成有版權的圖片是其比 DALL-E 優勝之處,但是品質就較為參差,人物動作不太自然且面容時有崩壞問題。

     

    ======

    加入 unwire thread 傾傾科技背後黑暗事

    ========

    相關文章:

  • Arm CEO:DeepSeek 或會被美國封鎖 「連 TikTok 也禁止,沒理由允許 DeepSeek 在美營運」
  •  

  • CEO:「DeepSeek 自動化業務流程」 傳上美股份炒 95% 客服只留 5% 懂 AI 者
  •  

  • 國際象棋大師讓 AI 對決 ChatGPT 竟被 DeepSeek「呃」到投降
  •  

    The post 【實測】DeepSeek Janus-Pro-7B 可理解迷因、生成圖片 + 與 ChatGPT 比較 appeared first on 香港 unwire.hk 玩生活.樂科技.