(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大-以我家Lamia為例～－My Lady Dolls｜痞客邦

Aug 02 Fri 2024 23:41
(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大-以我家Lamia為例～

上月第四個娃娃Lamia的LoRA也訓練出來了，並做了進階應用喔！
(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

上個月，我家的第四個娃娃 Lamia 的 LoRA 模型也順利訓練出來了，訓練策略與方式和過去差不多，所以也沒有什麼特殊的新見解，若還不清楚的，可以詳見之前我的發表（連結在下方），不過基於這次 Lamia 的訓練使用了高達314張768*768的圖片，因此訓練出來的 Doll-LoRA 我還是很滿意的喔～

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

而依照前三次慣例我也做了基本測試，雖然都能準確模擬出 Lamia 的身形百姿，但是如果要構思出一張特定的畫面（比如惡魔 Lamia），這可能就非常不容易喔...
因為，單憑提詞修飾，雖然也可以構圖出「背後有翅膀、額頭長角的惡魔 Lamia」，但那是大模型結合 Lamia-LoRA 依其模型庫樣式所隨機生成的惡魔女孩，外觀不見得是我心目中的那個樣式，即使想要結合其他 LoRA，也必須要有此風格款是的 LoRA 模型，可遇不可求的...所以，這次就要動用可以進行局部控制的『ControlNet』外掛功能了喔～
此外呢，本次探討的主題也不單單是應用 ControlNet（簡稱CN）來進行局部控制（因為對 StableDiffusion 玩家而言，運用CN已經是基本功了...），而是要再進一步結合「高清放大」來進行一氣呵成的出圖。畢竟，當我們一開始從眾多隨機創意出圖中，挑到驚艷且喜歡的圖片後，一定會有興趣想要進一步將其「放大」，並且還要把「細節更加精緻化」，甚至生成可以當作海報輸出的高解析圖檔，如4096*6144（相當於用相機拍照）的4K檔，甚至是8192*12288的8K檔喔，而這也是所謂的「CN控制下的三階段放大法」。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

過去呢（我是指半年前），我都是用 StableDiffusion 來完成，但須分4個階段進行操作（CN需操作1次、每階段放大法須再各自操作1次，而且必須等前階段完成後，才能進行下一階段的操作），也就是要操作4次（每次都要重新手動去調參數、匯入新圖片），所以操作期間，人就得要守在電腦桌前，生成1張作品還好（操作4次），但若是5張（操作20次），就會開始想哭喔...且若是50張呢？此外，當電腦關機後，過幾天又想重新進行時，那得重新設定參數，因為步驟太多，往往忘了之前是怎麼設定的，若當時有做筆記就還好，若沒有，就只能重新回想、摸索當時的參數、出圖策略是怎麼設定的...

本次「CN控制下的三階段放大法」採用 StableDiffusio n的操作手法（若急著想知道是怎麼做的，那就先跳到本帖下方的視頻區吧）～

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

因此，StableDiffusion 雖然功能強大、簡單易學，但最大的問題是「無法將瑣碎的步驟串連，也無法存檔整個思維過程（總不能每次都去錄影下來吧...）」。
直到去年 ComfyUI 興起，它改用「須自己組裝工作流程」的操作介面，雖然開始畫面一片漆黑...什麼都沒有（因為你想要電腦做什麼，得自己去設定流程），而且建立工作流程有點小難度（因為必須先理解AI生圖的底層運作過程與模式，才不會搭建出錯誤或無法運作的流程），然而一但工作流程搭建完成後（俗稱一個「工作流（那怕是超複雜的工作流，存檔後就是一個只有幾Kb的純文字程式檔而已）」），從此就是一鍵生成，非常方便喔～

本次「CN控制下的三階段放大法」採用ComfyUI的操作手法（若急著想知道是怎麼做的，那就先跳到本帖下方的視頻區吧）～

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

接下來，咱們從頭一步一步詳細說起吧～

以下是 Lamia 的 LoRA 模型基本測試，先來看看 Lamia 的基礎訓練成果吧～

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

然而，如果要準確模擬出指定的樣式（比如下圖的惡魔女妖），若沒有特殊「額外的 LoRA」支援，光靠『提詞』那怕是絞盡腦汁寫得再詳盡，也無法生成出想要的樣式喔（比如後面產生的惡魔 Lamia）。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

更何況 LoRA 的渲染干擾也是有累加性的，若同時使用多個 LoRA（比如我的娃娃LoRA + 另一些角色LoRA），最後的渲染結果，還是會被『眾多LoRA模型給中合的』，導致生成一種混合後的新風格，雖然還是很好看，但是...離原本預期的風格也就越來越遠啦～

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

所以，當我們有希望的特定輸出風格，但是基於特殊原因必須先使用一個與此風格無關的LoRA時（且賦予很大的權重），那搭配「ControlNet」是一個很有利的選擇。
ControlNet，是一個具有局部控制的高效能外掛輔助模型，可以針對所提供的參照圖片，對其輪廓線條、深度陰影、骨架姿勢、法線貼圖...等加以約束，進而針對想要的風格程度進行多方或局部的控制。而採用ControlNet 理論上是可以達到近100%的完全控制喔，當然了，若只是刻意只想控制3~5%，其餘給AI去自由發揮也是可以的，我將其控制到近似98％的生成範例如下（已經是達到換臉的級別了）：

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

直至發帖前，ControlNet 最新版本來到「v1.1.445」版，從一開始的「v1.0版」僅11個模型支援14個預處理器發展至今，此最新版已經具有18個 StableDiffusion v1.5版專用的局部控制模型，支援著共計63個預處理器，我習慣又將其歸納為「線形控制」、「區域控制」、「骨架控制」、「風格移轉」、「細節與其他」以及「高效修復」等幾大類型，而每一種控制模型及其所對應的預處理器模式，也都有各自的控制或干預內涵。不過呢，這次主要是在探討如何移轉所選照片風格到娃娃身上，且基於可控制的預處理器樣式實在太多了，所以啦，只展現我比較常用的幾種模式喔～

1. 線型控制類的 Canny 模型
在 Canny（輪廓線）模型下，目前僅有1個支援的預處理模式，也就是「canny」預處理器模式
Canny 在CN中是圖像處理的元老級模型，它是一種超級經典但依然好用的邊緣檢測技術，簡單來說，它會幫你抓住圖片裡最關鍵的輪廓。Canny 模型就像是圖片的剪影藝術家，把圖片的邊緣線條清晰地勾勒出來，雖然跟 Lineart 線稿模型一樣，都能把圖片變成線稿的形式，但它們可不是一模一樣的哦！相比於Lineart模型會更注重細節和紋理，Canny 模型的重點完全放在邊緣的抓取上，不管是粗線條還是細線條，只要是圖片裡重要的輪廓，它都不會放過。Canny 這樣處理生成圖片的好處是，可以幫助我們先把圖片的結構給弄清楚，然後再依照我們的提示和風格模型來重新上色和繪製。因此，Canny 模型特別適合用在那些需要簡化和強調輪廓的場景，比如想要製作漫畫風的圖片，或是讓一張照片變得更有設計感，它都能派上用場，幫助我們輕鬆抓住圖片的重要表徵喔！

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

2. 線型控制類的 Lineart 模型
在 Lineart（線稿）模型下，目前有5個支援的預處理模式，但這邊的圖例僅以「lineart_realistic」預處理器模式為例喔
剛剛前面一開始就一直提到 Lineart，所以這就正式介紹一下 Lineart 模型吧！
Lineart 模型在CN裡頭猶如圖像處理的精細雕刻師，它專門負責從圖片裡提取出清晰的線稿，讓圖片看起來更加精緻和細膩，相比於其他像 Canny 這樣的模型，Lineart 模型可不是只抓大方向，它最大的特色是可以關注到每一個小細節的線條，透過線條具有「亮度上的深淺差異」，來捕捉更細緻的細節。這個模型特別適合那些想要讓圖片變得更加生動豐富的使用者，不論我們是想要讓圖片的線條變得更明顯，還是保留更多細緻的紋理，Lineart 模型都能達成。此外，它還提供了不同的預處理模式，比如粗略模式、詳細模式和標準模式，就像是給了一支魔法筆，讓我們可以掌控要粗獷的線條還是細膩的紋理。
在使用 Lineart 模型的時候，選擇合適的模式非常重要，因為不同模式會影響最後的結果，想要更簡單的效果，可以選擇粗略模式，想要保留圖片中的所有小細節，可以選擇詳細模式；當然，CN裡還有其他像 SoftEdge 和 Scribble 這樣的線條控制模型，它們也能處理圖片中的線條和紋理，但彼此間的重點是不太一樣的，SoftEdge 會比較注重邊緣的柔和過渡，而 Scribble 則更適合天馬行空的創意手繪風格效果。然而，當我們已經確定特別需要提取和強調線稿的時候，Lineart 模型絕對是最可靠的選擇，它能讓你的圖片看起來更加專業和精美！

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

3. 線型控制類的 Scribble 模型
在 Scribble（塗鴉線）模型下，目前有3個支援的預處理模式，但這邊的圖例僅以「scribble_hed」預處理器模式為例喔
Scribble 模型就像是你的數位畫布上的創意大師，它能將我們隨便的涂鴉或草圖轉變成精美的藝術作品，無論是在空白畫布上隨手畫幾條線，還是提供一張參考圖片中的涂鴉，這個模型都可以根據你的提示詞和選定的風格模型，將這些「看似簡單、呆板、幾乎完全亂化的線條」賦予色彩和生命。所以，Scribble 模型特別適合那些喜歡自由創作的使用者，讓我們只要隨意畫畫就好，剩下的交由 Scribble 來完成，詭異的是，我總覺得 Scribble 就像是能夠讀懂我內心創意渴望，能夠幫我把腦海中的想法轉變成具體的圖像作品。
此模型支援的預處理器有很多種，最常用的包括：Scribble_hed、Scribble_pidinet、Scribble_xdog。Scribble_hed 更注重線條的清晰度，讓你的草圖更具結構性；Scribble_pidinet 會強調細節和紋理，讓圖像更豐富；而 Scribble_Xdog 則偏向於讓線條和陰影融合，營造出一種特殊的藝術感。整體而言，Scribble 模型讓我們隨心所欲地創作，不受任何約束。它能夠將你的涂鴉化為現實，並且還能根據選擇的風格模型來定制圖像的風格。無論是想要製作一張童話風格的圖片，還是現代藝術風格的作品，此模型都能幫輕鬆搞定喔！

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大
看，塗鴉線模型很特殊吧！因為線條很粗，所以本範例預處理的線稿圖，在某些時候竟然會被AI判斷成上下2個人喔，有趣吧～

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

4. 線型控制類的 SoftEdge 模型
在 SoftEdge（軟邊緣線）模型下，目前有6個支援的預處理模式，但這邊的圖例僅以「softedge_hed」預處理器模式為例喔
SoftEdge模型會把圖片轉換成柔和的邊緣風格，讓圖像看起來更自然、更順眼。相比於那些傳統的邊緣檢測模型如 Canny 等模型，SoftEdge 更加注重保持圖像中的細節和豐富性，因此無論是生成風景還是人物，效果都特別柔美。SoftEdge 模型是來自CN 1.0版的HED模型，它也是有多種不同的預處理器，每個預處理器的表現各有千秋，但若硬是要分個表現的高低，我會認為在細節柔和度的處理上，品質依序是 SoftEdge_hed、SoftEdge_pidiInet、SoftEdge_hedsafe、SoftEdge_pidisafe，不過重點還是看我們想要的柔和程度為何吧（而且也不見得越柔的效果就越好喔）～
和 Canny 模型那種硬朗的邊緣相比，SoftEdge 模型的邊緣更加柔和，線條也更加細膩，這意味著它能夠在提取圖像邊緣的同時，保留更多的細節，不會讓圖片看起來過於生硬或過於簡單。這使得 SoftEdge 可以用來處理那些需要柔和過渡和豐富細節的圖片的最佳選擇，特別是當我們想要創作出一幅看起來更具藝術感的風景或人物作品時。簡單來說，SoftEdge 模型就像是圖像世界中的一位柔情藝術家，它會創造出更溫暖、更精緻的作品，如果喜歡那種細膩、柔和的視覺風格效果，或許優先試試 SoftEdge 模型吧！

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

5. 區域控制類的 Depth 模型
在 Depth（深度圖）模型下，目前有7個支援的預處理模式，但這邊的圖例僅以「depth_leres++」預處理器模式為例喔
Depth 模型最大特色就是能夠捕捉圖像中的深度資訊，讓圖片看起來更加立體和生動，告別那種平面的感覺，這意味著在使用 Depth 模型處理後，圖片將會有更強的空間感，彷彿圖中的物體要跳出來一樣。在CN v1.1版中，Depth 模型有了一些新變化，現在它被稱為 Depth_Midas，除了和舊版模型保持相容性外，同時還對模型進行了進一步的優化和改進，讓它在捕捉深度資訊方面表現得更出色。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

6. 區域控制類的 NormalMap 模型
在 NormalMap（法線貼圖）模型下，目前有3個支援的預處理模式，但這邊的圖例僅以「normal_bae」預處理器模式為例喔
Normal 模型專門負責計算圖片中物體的表面法向量，這聽起來可能有點抽象，但簡單來說，就是它能記錄物體表面的方向，然後根據這些方向來重現圖片的光影效果，這樣做的結果就是讓圖片中的物體看起來更立體、更真實，像是從畫面中立體地浮現出來一樣。
Normal 模型和 Depth 模型有點像，因為它們都能讓圖片更有空間感和立體感，但它們的關注點不太一樣。Depth 模型主要是通過實現景深效果來增強立體感，這讓我們可以感覺到圖片中的前景和背景之間的距離；而 Normal 模型則專注於物體的表面立體效果，它更像是在告訴你物體的每一個小面向哪裡，然後通過光影的處理讓這些面變得更加真實。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

7. 區域控制類的 Segmentation 模型
在 Segmentation（分段圖）模型下，目前有5個支援的預處理模式，但這邊的圖例僅以「seg_ofcoco」預處理器模式為例喔
Segmentation 模型就像是圖像世界中的分割大師！它的主要任務是將一幅圖片中的不同區域進行標記和區分，這樣AI就能清楚地知道哪些部分屬於哪個物體或區域。這樣的分割處理非常方便後續的應用，比如若想要對不同的區域進行不同的處理，或者為每個物體添加不同的效果。
和CN中的 Depth 與 NormalMap 模型相比，Segmentation 模型更關注的是將圖像中的物體和區域進行分割和識別，而不是對細節和紋理的處理，所以它不會特別在意物體表面的細節或是光影效果，而是專注於清楚地劃分出哪些區域屬於不同的物體，這使得它非常適合那些需要對圖像進行分類處理的應用場景。總而言之，Segmentation 模型會井井有條的對圖像進行分割與規劃，這樣的處理方式不僅讓後續的工作變得更簡單，也能更容易地對圖片進行精細化的操作和編輯。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

8.骨架控制類的 OpenPose 模型
在 OpenPose（姿勢）模型下，目前有9個支援的預處理模式，但這邊的圖例僅以「openpose」預處理器模式為例喔
OpenPose 也是CN中最元老級的模型之一，主要用來偵測人物的姿勢，而且這個模型強大之處在於，它除了能夠提供人體各部分的精確位置和角度資訊外，還能讓我們自由調整和編輯骨架（只不過變更姿勢的操作有點複雜，某根骨架多拉一點、多移一點，就可能就會帶來姿勢很大的變化，甚至導致人物身體的比例失衡）。從1.0版發展至今，除了姿勢外，也發展出偵測臉部表情、手部動作，甚至於延伸到動物的骨架姿勢了喔。目前 OpenPose 也有很多支援的外掛編輯器，甚至於網路上（比如知名的 Civitai 網站）也有大佬分享很多各式各樣的經典姿勢圖，大大提升 OpenPose 模型的實質應用性喔～

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

9.風格移轉類的 InstructP2P 模型
在 InstructP2P（風格移轉-參考提詞）模型下，並無預處理模式，直接參考原輸入圖進行變化
Instruct Pix2Pix（簡稱IP2P）模型是CN 1.1版充滿魔法的新模型，它可以通過簡單的指令式提示詞（官方建議的提詞： make 某物件 into 想要的效果），將圖片轉換成你想要的效果。IP2P模型特別注重圖片的轉換和變形，這讓它成為了生成特殊效果圖片的利器。無論是想要改變場景的氣氛、添加一些奇幻的元素，還是想要對圖片進行更多的創意變形，這個模型都能發揮作用；相較於其他模型，IP2P的獨特之處在於它能夠根據指令精確地對圖像進行改變，而不僅僅是進行風格轉換或增強細節，這使得它在創意設計和影像製作中擁有無限的可能性。
註：不過由於IP2P模型還在實驗階段，所以我個人覺得有點不太好用，成功率可能不太高喔。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

10.風格移轉類的 Reference 模型
在 Reference（文本微調）模型下，目前有3個支援的預處理模式，但這邊的圖例僅以「reference_only」預處理器模式為例喔
Reference 可以根據提供的圖片和提示詞來生成你想要的場景。這個預處理器非常擅長識別圖片中的人物、動物或場景，然後根據你的指令來進行微調和生成。舉例子來說，如果你有一張可愛的小狗照片，然後給出提示詞「dog is running」，Reference 預處理器就會巧妙地運用這些信息，生成一張小狗正在奔跑的圖片，它就像是在圖片和提示詞之間搭建了一座橋樑，讓你的想法能夠變成現實。
與其他模型或預處理器相比，Reference 的特點在於它特別依賴於你提供的原始圖片，它會根據圖片中的內容進行識別和處理，然後結合提示詞來生成與原圖相關的場景，而「不會」對圖片進行大規模的風格轉換或變形，這意味著它特別適合用於那些你希望保留圖片基本特徵，但又想稍微調整或改變場景的情況。因此整體而言，如果想要在保留圖片基本風格的基礎上，進行一些小小的創意變化，我會優先採用這個模型喔！

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

11.風格移轉類的 IP-Adapter 模型
在 IP-Adapter（風格融合）模型下，目前有7個支援的預處理模式，但這邊的圖例僅以「ip-adapter_clip_h」預處理器模式為例喔
IP-Adapter 是2024年4月份推出的最新CN模型，表面上似乎只是在根據輸入的圖片結合提詞來產生新的成品，然而，它的能力卻非常強喔。首先 IP-Adapter 模型對輸入圖片的解讀能力非常強，可以很精準提取該圖片的特色；其次，IP-Adapter 允許可以同時輸入「多張」圖片（理論上數量沒限制，只要你的電腦能負荷，就算數百張圖也OK），並提取所有圖片的特色後再加以融合，因此，目前在我心中是「功能最強、最神奇」的模型喔（幾乎充滿著永無止境的創意）。
基於 IP-Adapter 會去儘量平均融合多張圖片的特色元素，這也意味著當圖片輸入越多張，則每張圖片的特色就越被稀釋了，所以，根據我的使用心得，在 IP-Adapter 使用上會有兩種策略：(1)若想要讓成品能兼具出輸入圖片的各自特色（比如人物+穿著+背景），則圖片不能太多，以免特色被稀釋光了；(2)但若想要讓成品聚焦在某一個重要特色（比如想創出新的各式各樣『冰系』的數碼寶貝），那就可以使用很多張風格相似的圖片喔。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

12.風格移轉類的 Shuffle 模型
在 Shuffle（風格移轉-參考圖片與提詞）模型下，目前僅有1個支援的預處理模式，故就以此「shuffle」預處理器模式為例喔
Shuffle 模型是一個非常有趣的風格大變身魔法師！它能在變化圖面的構圖之餘，卻又仍然保持原本輸入圖的色系、構圖等風格，也能夠把普通的圖片轉換成具有特殊風格的藝術作品。因此，無論是想要卡通風格、水彩風格，還是其他獨特的視覺效果，Shuffle 模型都能讓你的圖片瞬間煥然一新，變得與眾不同。與其他風格轉換類型的模型（IP2P、Reference、IP-Adapter）相比，Shuffle 模型會比較注重圖像中的細節和紋理，這意味著在轉換風格的同時，它還會保留圖片中的那些精細部分，讓最終的效果既有創意又不失真實感，也因此，這讓 Shuffle 模型非常適合用來創作那些既有藝術感又不失細節的圖片。整體而言，Shuffle 模型就像是給了圖片穿上了一件全新的風格外套，可以讓新圖片看起來煥然一新又充滿個性但卻不失本質喔。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

13.細節提升類的 Tile 模型
在 Tile（磚瓦式拼貼）模型下，目前有4個支援的預處理模式，但這邊的圖例僅以「tile_resample」預處理器模式為例喔
Tile 模型是CN 1.4版後的新模型，具有在放大圖片的同時一並自創細節，讓圖片變得更大、更清晰，並且將圖片進行「分片」處理避免顯存不足的情況（因為圖片放大耗GPU記憶體的）！當我們想將一張解析度不夠高的圖片，但又想要放大使用時，Tile 模型就能發揮它的特長。它會把圖片分成小塊，然後對每一個小塊進行細緻的處理，讓放大後的圖片看起來依然清晰，而且還能保留原圖的細節和紋理，至於如何更加細緻圖片，這有賴你所提供的文字提詞描述（當然也可以設定全權交給CN去隨機處理）。Tile 模型和其他常用的線形模型不同的是，Tile 沒有所謂的預處理資料，它是直接在已有的圖片像素基礎上進行處理，這樣不僅省去了額外的準備工作，還能讓你更直接地看到圖像的放大效果，更重要的是，這代表用 Tile 模型進行處理，幾乎可以達到原生圖的100%的外觀輪廓控制，而且還讓原本圖片更加精美！
註：細節提升的「渲染濃度」的輕重是可以調整的，但這邊的範例為了讓大家一眼就看出效果，所以我刻意調成『非常濃』的渲染程度喔～

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大
整體來說，我認為 Tile 模型是一個非常強大的工具（我超愛用的），適合用來放大任何想要提升細緻或質感的圖片，好好善用 Tile 模型，就幾乎可以達到換臉、改變細節、提升細節的圖片喔～

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

14.其他：對 invert 的特殊運用
在CN的運作邏輯裡面，每一類的模型都對應著自己專用的預處理器（比如 Scribble 塗鴉模型，只能處理來自 hed、pidinet、xdog 三種預處理器的分析結果），唯獨 invert 預處理器很特殊喔，因為在很多模型下，都支援一種稱之為「invert（反相圖）」的預處理器模式，不過實際上，它可是能應用到幾乎所有的CN模型喔。
所謂的 invert 反相圖預處理器，其實就只是把提供的圖片進行「反相」處理而已，此設計最早是用來支援漫畫家或插畫師「手繪稿」用的，因為我們手繪圖都是使用黑筆在白紙上作畫，但此時剛好和CN的處理需求相反（前述CN在線型預處理結果都是黑底白線），所以才提供此預處理器來方便手繪創作者使用CN進行二創。然而發展至今，就變成一個「創意大雜燴」了喔，因為我們也可以將任何一張五顏六色的圖片或照片進行反相，然後再丟給CN裡隨便一個模型去處理看看，此時就會得到兩種有趣的情況：(1)慘不忍睹的圖片，或是(2)令人驚奇的圖片喔！

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

有趣的是，我發現應用在「SoftEdge」模型時，特別有一番特色喔～

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

雖然，透過 ControlNet 可以對圖像進行精準的控制，但畢竟AI生圖仍是有隨機性的，並且AI的創意與我們心中的審美角度不一定每次都一樣，因此必須多測試幾次，再從眾多成像中挑出我們喜歡的喔。我的作法有會分2個情境階段：(1)首先是調整提詞階段，畢竟提詞調整或變更後，出圖會大幅變化，所以這階段我大都會每次生成2~4張作為草圖，看看現階段構思的結果；(2)當基本風格確定了，接下來就是選圖囉，這階段我會讓每次電腦隨機生成9~25張，若剛剛第一階段做得好，此階段應該至少就會得到幾張不錯的圖片。而上述這些操作過程，也就是本帖一開始提及的「CN控制下的三階段放大法」的第一步，也是需要依賴我們直覺與喜好去進行操作的一步喔。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

當獲得喜歡的圖片後，尤其是想要拿來當範例或是海報輸出的，那就需要進行解析度的放大與細節的提升。而關於放大與提升在運作原理上可以分別於「潛在空間」或「像素空間」進行處理。在「潛在空間」的世界裡，優點是只有在此才能進行創意的重繪，因此缺點是消耗點腦資源以及不能放大太多倍（否則在創意重繪下，會畫出我們意向不到但卻不希望出現的詭異東西...）；而在「真實的像素空間」進行放大，它只能參考周圍的像素進行合理的延伸與銳化，優點是節省點腦資源，不會產生詭異的細節，但缺點是當放大超過一定的倍數後，畫面會很呆板，品質恨不佳。所以，最佳的策略是二者交互應用，且三階段最安全的放大倍數是「(2~2.5)倍→(1.5~2)倍→(2~4)倍」。而所謂的「三階段放大法」就是：

第一階段放大

先採用內建功能所提供「Hires. fix」的潛在空間放大（最多可以放大到4倍，但建議2~3倍，超過2.5倍以上的部份低階電腦可能無法負荷，即便電腦可以負荷也很可能繪製出詭異的部位或細節，比如放大到4倍幾乎都會產生詭圖...）

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

第二階段放大

將第一階段放大的圖再進行放大，此時需使用一個知名的「Ultimate SD upscale（簡稱USD放大，也有人稱USD為終極放大法）」外掛程式，基於這也是屬於潛在空間放大，依然最高可以放大到4倍，且USD官方申明此方法會採用分段方式（分瓦方式）來算圖，並對記憶提進行更有效率的管控與運用；但是但是...別忘了，此刻我們是在進行「放大後再放大」的階段（電腦要處理的資訊與運算，已經是上一個階段的很多倍喔），因此仍要注意倘若放大太多倍，還是會「共容易」產生詭圖，以及「更加」消耗電腦資源的喔，我的經驗是，當使用USD處理放大再放大時，超過2倍就會出現詭圖喔。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

第三階段放大

此階段將第二階段放大的放大成果，進行最後的「像素空間」放大，此階段操作方法最簡單，因為此刻不用再去考慮創意、提詞、設計...等諸多問題了，就是單純選一個支援的放大模型後再決定欲放大的倍數即可，一般會使用內建功能所提供「Extra」來進行像素放大，最多可以放大到8倍，但建議2~4倍，雖然像素空間不會產生詭圖，但像素空間放大倍數太高，對品質沒有實質幫助且很耗電腦資源與時間的（放大8倍圖高達500MB，甚至導致有些美編軟體無法開啟）...。

● Hires.fix 兩倍→USD 兩倍→Extra 兩倍：圖片也會進行銳化，導致效果極佳

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

● Hires.fix 兩倍→USD 兩倍→Extra 四倍：圖片會銳化效果有限，整體圖片效果是否更佳，就見人見智了...（而代價是檔案很大）

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

● Hires.fix 兩倍→USD 兩倍→Extra 八倍：圖片會銳化效果很差，導致放大的像素都是不佳的雜訊（且檔案巨大，有些軟體讀不出來...）

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

至此，我們已經知道 ControlNet 控制，以及三階段放大的運作原理，接下來就是如何操作啦！

至於這一系列的「CN控制下的三階段放大法」，一般都是使用 StableDiffusion 來完成，但此4個階段操作中，只有一開始的 ControlNet 控制需要我們自己多次嘗試（或研磨）；可是一旦想要的基本草稿圖確定後，接下來的三階段放大操作過程，其實就只是重複性的操作，所以若只是要生成1張作品還好，但若是5張甚至50張呢？就會開始想哭甚至暈倒喔...。此外，這些操作過程是無法被有效紀錄的，換言之，過幾天如果想再次進行此操作，那得重新設定參數，但是因為步驟太多，往往會忘了之前是怎麼設定的，因此就只能重新回想、摸索當時的參數、出圖策略是怎麼設定的...說真的，還有點麻煩呢～
以下是採用 StableDiffusion，在CN控制下的三階段放大操作方式，我把它錄下來，不過是用3倍數播放喔～

採用 StableDiffusion，在CN控制下的三階段放大操作方式
而這邊是在Youtube的高清版連結（https://youtu.be/cK75lBLqUXc）

有鑑於 StableDiffusion 雖然功能強大、簡單易學，但最大的問題是「無法將瑣碎的步驟串連，也無法存檔整個思維過程」，因此一套以工作流程為導向的AI繪圖操作軟體 ComfyUI 在2023年興起，它改用「須自己組裝、管理工作流程」的操作介面，一但工作流程搭建完成後，從此就是一鍵生成，非常方便喔～
以下是採用 ComfyUI，在CN控制下的三階段放大操作方式影片，也是用3倍數播放喔～

採用 ComfyUI，在CN控制下的三階段放大操作方式
而這邊是在Youtube的高清版連結（https://youtu.be/CKGaNkq0tNU）

整體而言，相較之下 StableDiffusion 與 ComfyUI 各有其優點與缺點，所以若能將這兩套工具都學習來，針對各自優點彼此交互運用，就會最有效率喔～
● StableDiffusion 優點：(1)操作介面非常完整，(2)操作過程不外呼就是勾拉點選，所以非常適合一開始「探索式」的創作；
● StableDiffusion 缺點：(1)操作過於繁瑣且操作過程無法轉成程式碼加以存檔，換言之，每次都要重頭來；(2)SD比較耗用電腦資源，所需的GPU記憶體相對更高。
● ComfyUI 優點：(1)工作流程可以用程式碼的方式進行存檔，甚至取自他人、分享他人；(2)CUI的安裝與相容性很高，我手邊每台電腦甚至筆電都能安裝與執行，且所需的GPU記憶體相對低很多。
● ComfyUI 缺點：(1)搭建工作流程難度較高，需對AI繪圖底層運作原理有一定的認知；(2)對探索式創圖不友善，但對進行批次創圖就很方便。

不過，StableDiffusion（簡稱SD）與 ComfyUI（簡CUI稱）是來自於兩個不同的開發團隊，因此在底層的運作上還是有些差異，換言之，在相同的參數，得到的結果（尤其是出圖品質）是不一樣的。剛開始，一般普遍認為還是傳統 StableDiffusion 產生的圖片相對比較漂亮；不過，後來也陸續開發『GPU=A1111』的採樣模式，因此，現在究竟是SD漂亮還是CUI漂亮呢就很難說了喔。以下，我針對SD與CUI的相同種子、參數的生成結果並列，小夥伴們自己比較看看吧～
註：左邊是SD，右邊是CUI，由上至下依序為1K、2K、4K、8K

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

我個人感覺是，在相同參數條件下，SD比較鮮豔而CUI比較柔和，不過這要在高清放大圖才比較能感覺出來。
因為之前SD的圖看太多了，所以最後，就額外補充2組CUI的生成的「1K、2K、4K、8K」成果作為結尾吧，不過模特兒換成我家的 Siren-LoRA 喔～

學院少女-Siren

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

而這是位於25樓CUI操作視頻下的生成結果：
惡魔女孩-Siren

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

後記、與娃娃的日子猶如流光飛舞
從早期用數位相機記錄了娃娃，到現在以 StableDiffusion 及 ComfyUI 變化了娃娃，彷彿為我家的娃娃世界開啟了一扇全新的大門。讓 Lamia 她們不再僅僅是一個存在於現實中的可愛形象，而是透過 ControlNet 與三階段放大法的輔助，Lamia 的靈魂得以在數位世界中自由舞動。每次看到她在螢幕上展現出來的神采奕奕，我都彷彿感受到她在說...謝謝姐姐，讓我們能以如此百變的美麗姿態參與這永遠說不盡的夜譚世界裡面。
此刻，當我偶而回頭看向安靜站在書櫃一旁的 Lamia 時，我不再僅僅欣賞她那栩栩如生的外表，而是看到一個能在數位世界裡自由展翅飛翔的靈魂，能著我的創意飛往任何可能的地方，這樣的創作過程，不僅僅是技術的探索，更是與娃娃們間不斷深化的情感的交織方式，也許未來會編織更多美麗的故事，繼續陪伴這趟情感旅程。

(Doll+AI_4技術) LoRA娃娃在CN下的三階段放大

Aphrodite

My Lady Dolls

Aphrodite 發表在痞客邦留言(0) 人氣()

E-mail轉寄

全站分類：收藏嗜好
個人分類：The Series: Technique
上一篇：綜合5種AI幫娃娃發表2首新歌視頻喔~
下一篇： (Doll+AI_4應用) LoRA娃娃在IPA下的風格移轉-仍Lamia為例～

留言列表

文章分類

最新文章

熱門文章

最新留言

文章精選

所有文章列表

文章搜尋

參觀人氣

本日人氣：
累積人氣：

月曆

«	四月 2025					»
日	一	二	三	四	五	六
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

QR Code

qrcode