Midjourney又升級：這次輪到攝影師恐懼了？＊阿波羅新聞網

你也許對下圖這些電影或者遊戲角色十分熟悉，但是如果我告訴你，這些都是用AI生成的，那麼閣下又該如何應對呢？

去年12月21日，世界上最受歡迎的AI圖片生成工具——Midjourney開始對其最新版本V6模型進行Alpha測試。

Midjourney創始人David Holz 在Midjourney的Discord論壇伺服器上寫道：「這個模型可以生成比我們之前發佈的任何模型都更加真實的圖像。」他還表示，V6實際上是「在我們的人工智能超級集群上從頭開始訓練的第三個模型」，花了九個月的時間開發。

測試開啟之後，所有人都被V6的強大震撼了，甚至是強大得有點過頭了，因為通過MidjourneyV6模型生成的圖片，似乎與一些受版權保護的藝術作品，有些過於相似了。

有多相似呢？

有一位曾與漫威和DC等電影工作室多次合作的概念藝術家、插畫師，Reid Southen，在使用關鍵詞測試Midjourney時發現，

生成的圖像與多部電影中的場景幾乎一模一樣。

這精度！這光影！跟電影和遊戲原場景不能說是一模一樣，也可以說是完美復刻了。

Midjourney又升級：這次輪到攝影師恐懼了？

圖片左側為電影及遊戲截圖，右側為V6模型生成

而且MidjourneyV6連知名的卡通人物也可以很容易地複製，正如這些《辛普森一家》片段所體現的那樣。

Midjourney又升級：這次輪到攝影師恐懼了？

圖片均為V6模型生成

這真的是AI生成的嗎？這真的不是抄襲嗎？

面對用戶的版權質疑，Midjourney的回應也是十分迅速，問題的關鍵就是要解決關鍵的問題。

他們封禁了那位插畫師Reid Southen，將其賬戶從公司的Discord平台中剔除，刪除了他的使用歷史，取消他的服務訂閱；在Southen創建了一個新帳戶並報告了更多結果後，Midjourney再次封禁了他（甚至沒有退還他的訂閱費）。

Midjourney的舉動也是激怒了Southen，他一直在推特上喋喋不休地發文控訴Midjourney的「剽竊」行徑。

Midjourney又升級：這次輪到攝影師恐懼了？

那麼MidjourneyV6真的到了以假亂真的地步了嗎？以後的AI繪圖是否會完全代替人工繪圖，甚至精確到連後期微調都不需要了呢？廢話不多說，讓我們來測試一波！

測試部分：

我先實驗了一下V6用同一個角色連續生成圖片的功能，看看能不能模仿日漫的畫風，簡單地寫了個小故事，畢竟人物角色的連續性對於我們講故事來說非常重要——

繁忙的高中走廊里擠滿了各式各樣的學生，他們拿着書本，聊天，走過儲物櫃。

Midjourney又升級：這次輪到攝影師恐懼了？

一個十幾歲的男孩，中等身高，走過走廊，表情溫和，頭髮略顯凌亂，穿着稍大號的高中校服。

Midjourney又升級：這次輪到攝影師恐懼了？

他的臉上顯現出好奇和輕微的焦慮，眼睛掃視着走廊。

Midjourney又升級：這次輪到攝影師恐懼了？

前不久他偶然發現，自己能通過觸碰物品看到它們所有者的過去。

Midjourney又升級：這次輪到攝影師恐懼了？

他來到教室，小心翼翼地伸手觸摸同學的筆記本，看到了一個個令人驚訝的秘密。

Midjourney又升級：這次輪到攝影師恐懼了？

他看到了一位以前被大家都認為很害羞的同學，在舞台上自信地表演，揭示了隱藏的歌唱天賦。

Midjourney又升級：這次輪到攝影師恐懼了？

他又拿起一根筆，在另一個閃回中，全班第一的班長正在秘密地製作複雜的模型飛機，這是他向同學們隱瞞的一項愛好。

Midjourney又升級：這次輪到攝影師恐懼了？

拿到卷子時，他看到了一位看着眼神很兇惡的同學在家裏溫柔地照顧弟弟妹妹，這與他們在學校的形象背道而馳……

Midjourney又升級：這次輪到攝影師恐懼了？

我的評價是，人物的連續性非常到位，畫風的連續性略有瑕疵，

對於提示詞理解也比之前的版本上了一個台階。

看來接下來的趨勢是，只要你有構思精彩故事的能力，即便完全不會畫畫，也能生成精彩的漫畫故事了。

有哪位想成為下一個尾田榮一郎或者青山剛昌的嗎？我看好你哦！

接下來我們用MidjourneyV6和V5.2版本進行生圖對比，看下這版的Midjourney相比之前的進步或者區別在哪裏。

【*註：前一張為V5.2，後一張為V6】

首先是一般人物的圖片生成：

提示詞：Japanese girls, fashion photography, studio shot, --ar 5:7

（日本女孩，時尚攝影，棚拍，比例5:7）

Midjourney又升級：這次輪到攝影師恐懼了？

提升是顯而易見的，V5.2的整體畫質還是有些模糊，並沒有擺脫傳統AI生成圖片的油畫感，而V6在畫面質感以及細節刻畫上有了更精緻的表現，圖像的光影處理也更加真實自然，若不是我親手操作我真以為是專業攝影師的作品了。

然後是動漫人物的圖片生成：

提示詞：A Japanese cartoon of a beautiful girl in a black stocking. A small black sphere inside of a giant transparent sphere in a white room

（一張日本卡通畫，畫中一個美麗女孩穿着黑色長襪。畫面中一個白色房間內有一個巨大的半透明球體內有一個小小的黑色球體。）

Midjourney又升級：這次輪到攝影師恐懼了？

可以看出V6的默認風格更加寫實一些，這張圖片兩個版本的AI理解都有點問題，V5把黑球畫成了黑貓，V6忽略了黑球，看來Midjourney在理解這種層層嵌套的複雜提示詞的時候還是有點問題。

接下來是產品圖的圖案生成——

提示詞：oil and lotion on tray with towel and plant near a window, in the style of photorealistic renderings.frequent use of yellow, back button focus, fujifilm velvia, realistic rendering, kimoicore --ar 3:4

（油彩和乳液在盤子上，旁邊有毛巾和植物，窗戶附近，風格類似於照片寫實渲染。經常使用黃色，背景按鈕對焦，富士Velvia，寫實渲染，KimoCore-AR 3:4。）

Midjourney又升級：這次輪到攝影師恐懼了？

可以看出來V6生成的圖片，除了細節更豐富，光影更自然，更接近真正的照片之外，它還理解到了富士相機的風格，並且把這個「富士濾鏡」加入到了生成的照片中，看來可能今後連相機都不用買了，只要在生成的圖片中加入相機型號，就能生成相應的風格照片。

食物的圖案生成：

提示詞：A close-up shot of a succulent grilled steak, captured with a shallow depth of field using a Canon EOS 5D Mark IV and a 50mm f/1.8 lens at ISO 200, 1/200 shutter speed, showcasing the caramelized sear, tender pink interior, and glistening juices, evoking a mouthwatering visual feast

（一張特寫的烤牛排的照片，使用佳能EOS 5D Mark IV和50mm f/1.8鏡頭在ISO 200、1/200的快門速度下拍攝，利用淺景深捕捉，展示了焦糖化的外皮、嫩粉色的內部和閃耀的汁液，引發了一場令人垂涎欲滴的視覺盛宴。）

Midjourney又升級：這次輪到攝影師恐懼了？

食物的生成圖片很相似，不過V6版本能營造出那種汁水感，看起來更誘人一些，而V5版本的牛排有種烤過頭的感覺。

與上面的產品圖類似，V6也捕捉到了關於照片創作的關鍵信息——特寫，相較於V5.2的全景，V6的圖片才可以稱之為特寫。

特定風格的圖案生成，我挑了三個風格的展現，第一個是美漫風格。

提示詞：Alex Ross Comic Cover art with the Marvel Book Title "She-Hulk" at the top. gorgeous superheroine She-Hulk with her green skin and wearing her white and purple superhero outfit and also her muscles, (Ed Benes Studio) Artgerm style, close-up portrait, character reclining, comic book art

（Alex Ross漫畫封面藝術，上面是漫威的書籍標題「She-Hulk」，美艷的女超級英雄She-Hulk，她穿着白色和紫色的超級英雄服裝，還有她的肌肉，(Ed Benes工作室)Artgerm風格，特寫肖像，角色躺臥，漫畫藝術。）

Midjourney又升級：這次輪到攝影師恐懼了？

這個不多說，從語義的理解和生成的質量上，V6完全吊打V5.2，V5.2還沒有完全理解She-Hulk是女性版綠巨人，生成了男性超級英雄的角色。

第二個是慕夏的版畫風格。

提示詞：Beautiful. Mucha style

（美女，慕夏風格）

Midjourney又升級：這次輪到攝影師恐懼了？

V6的細節明顯更多一些，但是從生成的景別，人物姿態來看，不得不說V6有些死板了。

第三個是找了美國黃金時代的插畫家Leyendecker風格。

Midjourney又升級：這次輪到攝影師恐懼了？

對比可以看出：

雖然V6細節更多，但更偏向寫實，不太像畫作，並且風格也和Leyendecker大相逕庭，V5.2雖然是畫作，但風格和Leyendecker也沒有太大關係，

看來，對於一些罕見情況（Corner Case），Midjourney還是沒有覆蓋到，並且V6比V5.2真實也是事實，即便要生成的是風格繪畫也強行真實。

圖片中帶有文字的圖案生成方面，目前只適用於簡短的英語文字生成。

提示詞：A neon logo sign with the word " Welcome" written on it, outside a bar in new york city at night

（紐約市一家酒吧外夜晚懸掛的帶有「Welcome」字樣的霓虹燈招牌標識。）

Midjourney又升級：這次輪到攝影師恐懼了？

不用說，從單詞的拼寫上面，V6就已經贏了。

此外我還進行了其它的測試，例如生成裝修設計圖。提示詞：High-end kitchen scene, simple atmosphere, warm colors

（高端廚房場景，簡約大氣，溫暖色調）

Midjourney又升級：這次輪到攝影師恐懼了？

躺在火爐旁的貓：

提示詞：a cat is sleeping next to a fireplace, in the style of unreal engine 5, light amber and crimson, uhd image, norwegian nature, joel robison, dignified poses, soft, dreamy scenes --ar 128:71

（一隻貓在壁爐旁睡覺，風格為虛幻引擎5，淡琥珀色和暗紅色，超高清圖像，挪威自然，喬爾·羅比森，莊重的姿勢，柔和的，夢幻般的場景——AR 128:71）

Midjourney又升級：這次輪到攝影師恐懼了？

還有中國明星：

提示詞：Liu Shishi is wearing a new Chinese-style green haute couture, with a tense and powerful posture. The background is a bamboo forest, with water splashing, martial arts pose, full body shot, wide-angle lens, 3/4 face

（劉詩詩身穿一襲中國風的綠色高級定製禮服，身姿挺拔而有力，背景是一片竹林，水花四濺，擺出武打姿勢，全身照，廣角鏡頭，3/4臉。）

Midjourney又升級：這次輪到攝影師恐懼了？