內容目錄
素材選擇
1.不同表情
2.不同構圖
3.不同顏色、款式的衣服
4.不同燈光
5.清晰
需要多少圖片數量
1.簡單主體(人物、動漫、臉):至少15張
2.複雜主體(場警、建築物):至少100張
每張圖片建議訓練步數
次數越多,細節越明顯。最少10步,但也不要過高。
二次元:10~16
寫實人物:17~35
場景:50~
訓練總步數
LoRA:1500~6000步
Checkpoint:30000~
kyoss 參數說明:
Train batch size : 同時訓練圖片數,數字越大消耗VRAM越多,速度越快,但是效果不一定更好。
Epoch & Save every N epochs:一共有 Epoch 輪訓練,每一輪保存一個 LoRA模型。訓練總步數=圖片數量*每張步數(image底下資料夾的前綴數字)*Epoch / batch size
Mixed precision & Save precision : 混和精度 & 保存精度,選fp16效果較佳。
Number of CPU threads per core : CPU是幾核就填多少。
Seed : 種子,不填就會隨機賦予,不可填-1。
Learning rate(以下簡稱LR) : 學習率
Text encoder learning rate : 文字解碼學習率,建議一開始設定成0.00005 (設為Unet learning rate 的一半或1/10)
Unet learning rate : 特徵提取學習率,建議一開始設定成0.0001
LR Scheduler : 學習演算法






LR warmup : 慢慢熟悉模型,前期預熱過程的比例。模型愈複雜,數值設越高。基本上定10~20即可。
Optimizer : 優化器,選AdamW8bit即可。選DAdptAdam亦可,但須搭配LR=1 & Unet LR=1 & Text encoder LR=5 & 演算法 = constant & Warmup % = 0,此優化器會自動返回最佳LR。
Network Rank : 模型精細度,一般建議128。
Network Alpha : 特徵分辨率,數值越高細節越多,太高會過擬和。
參考資料:https://www.youtube.com/watch?v=s0XJOGfUxkE