A generatív mesterséges intelligencia (GenAI) segítségével nem csak szövegeket, hanem képeket, videókat is könnyedén létrehozhatunk. Ám a legtöbb ilyen, MI-alapú képgeneráló és képszerkesztő sajnos csak online működik. De mi van akkor, ha szeretnénk havi előfizetési díjak nélkül megoldani a képek ily módon történő létrehozását és átszerkesztését, illetve teljesen privát környezetben dolgozni leendő képeinken, nem pedig egy távoli szerverre bízni azok elkészítését? Nos, örömmel jelentjük, hogy az AI képgenerálás saját gépen – vagy épp iPhone-on is – könnyedén megoldható a megfelelő szoftverekkel. Ezek egyike a Sogni is, amellyel a képgenerálás teljesen offline és nem mellesleg igencsak hatékony.
FRISSÍTÉS: Cikkünk eredeti megjelenése óta a Sogni más üzleti modellt követ. Jelenleg bárki ingyen letöltheti az aktuális verziót macOS és iOS rendszerekre egyaránt, illetve a modell-kínálatban megjelent a méltán népszerű FLUX.1 Schnell is. Emellett a cég a teljesen ingyenes, de erősebb eszközt igénylő offline képgenerálás mellett immár villámgyors – és gyengébb eszközökön is használható – online képgenerálást is kínál a programban, kredites rendszerben.
Sogni: AI képgenerálás saját gépen, vagy épp iPhone-on
Bár több – akár ingyenes – konkurensét is bemutattuk már AI rovatunkban, a Sogni néhány dologgal kiemelkedik ezek közül. Az egyik a rendkívül jól eltalált, kényelmesen használható felület, amelyen – ha egyszer kiismertük minden funkcióját, amihez kell egy kis gyakorlás – nagyon hatékonyan dolgozhatunk. A másik a hatalmas és folyamatosan bővülő MI-modell + LORA kínálat, amelyekkel témakör vagy stílus szerint orientálódva is rásegíthetünk, hogy a készülő képek minél inkább lefedjék az elvárásainkat.
A program használható macOS és iOS alatt egyaránt, de mivel offline képgenerátorról van szó, így ennek azért akadnak hardveres követelményei, lévén itt nem egy távoli szerver végzi a munkát, mint mondjuk a ChatGPT vagy a NightCafe esetében. Így aztán ha az AI képgenerálás saját gépen történik, akkor minimum követelmény a macOS Ventura 13.3 rendszer és egy M1 chippel ellátott, vagy Intel Core i9 CPU-ra épülő, lehetőleg 16 GB RAM-mal ellátott Mac. A RAM esetében van néhány modell, ami kevesebbel is beéri, de speciel akad már olyan is, amelyiknek a 32 GB az ideális (például az SD3), szóval érdemes minimum 16 GB-ban gondolkodni, ha szeretnénk kiaknázni az összes rendelkezésre álló Stable Diffusion modellt.
Ha iPhone-t használnánk, akkor a minimum követelmény az iOS 17 rendszer és egy iPhone 13 Pro, vagy mondjuk egy olyan iPad, amely már Apple Silicon alapú. A korábbi iPhone-ok esetében előfordulhat, hogy nem tudják lefordítani a Core ML modelleket, vagy nem tudják befejezni a képgenerálást. Szóval megfelelő eszköz nem árt a Sogni alá, de ha ez megvan, nagyon megszerethetjük, még akkor is, ha amúgy az SDXL alapú modellek esetében az offline képgenerálás sajnos olykor hosszú ideig tartó folyamat lehet. Mi most a Maces változatot teszteltük egy M1 alapú MacBook Pro gépen, 16 GB RAM társaságában, így az alábbi tapasztalatokat ez alapján írjuk.
Modellek beszerzése, választéka
A Sogni a Stable Diffusion képgeneráló modelleket használja, amelyek ingyen elérhetők szinte bármilyen célra. Ez alól csak a legújabb SD3 modell kivétel részben, ahol a Stable AI kissé elvetette a sulykot a közösséggel szemben a megjelenéskori licenceléssel, de azóta már módosítottak ezen, így alapvetően az SD3 is sokak számára lehet remek alternatíva. De a Sogniban megtalálható az SD 1.5 és az SDXL is, illetve ezek különféle szempontok szerint optimalizált változatai, amelyeket attól függően tudunk kiválasztani, hogy épp anime stílusra, illusztrációra, 3D-s figurákra, vagy esetleg élethű fotónak tűnő végeredményre vágyunk.
A modellek beszerzése teljesen megoldható a programon belül, ahol a Change model gombra kattintva nyithatjuk meg a modellválasztó felületet. Ezen az alábbi kategóriákra osztva találjuk a letölthető és telepíthető darabokat:
- SD3 (Stable Diffusion 3): Ez a legújabb, egyelőre azért még nem teljesen kiforrott, de rendkívül jó képminőséget, változatos képfelépítést és remek szövegmegjelenítést ígérő Stable Diffusion modell, amelyből tesztünkkor épp a Medium változatot lehet beszerezni a Sogniban. Az 1024 pixeles változat (SD3 Medium 1024 T5) használatához 32 GB RAM ajánlott macOS alatt, az 512 pixeles verzió (SD3 Medium 512) viszont gond nélkül működik 16 GB esetében is.
- SDXL: Kiforrott, magas minőségű és nagy felbontású képgeneráló modell, amely részletes és fotórealisztikus képeket készít, nagyobb felbontásban (1024×1024 pixel).
- SDXL Turbo & Lightning: Nagyjából az SDXL képminőségét hozó, de annál sokkal gyorsabban – némileg eltérő elven – működő képgeneráló modellek. Jóval kevesebb lépéssel is tudnak közel azonos minőségű képeket létrehozni, mint a sima SDXL modellek.
- Standard: A Standard kategória választéka egy régebbi Stable Diffusion 1.5 modellre épül, amelynek minősége és felbontása elmarad az SDXL változatokétól. Cserébe viszont sokkal gyorsabban dolgozhatunk vele és a Sogni rengeteg betanított változatot kínál, amelyek pontosabban illeszkedhetnek az elvárásainkhoz, így a legtöbb esetben kifejezetten jó eredményt kaphatunk ezekkel. A kész kép felbontása ugyan kisebb lesz (512×512 pixel), de ezzel kapcsolatban máris lerántjuk a leplet egy izgalmas extra funkcióról, ami segíthet ezen.
- LCM: Az LCM nem egy különálló modell kategória, hanem egy technika, amely felgyorsítja a képgenerálási folyamatot. Az ide besorolt változatok gyakorlatilag realtime munkára képesek, vagyis szinte azonnal látjuk a képkészítési folyamat eredményét. Ami azért nem utolsó szempont, ha az AI képgenerálás saját gépen történik és nem egy távoli, brutális erejű szerveren.
A kategóriákon belül elérhető modelleket és változatokat egy kattintással telepíthetjük, akár csoportosan is: elindítjuk a letöltését azoknak, amelyekre szükségünk van, majd hagyjuk a gépet, hogy szépen letöltse és telepítse mindet, egy végtében. Ez már csak azért is praktikus, mivel az alap változatok általában méretesek, kb. 6 GB darabja, így eltart egy ideig, amíg landolnak az eszközön. Éppen ezért a listában általában találunk mindegyikből egy 6bit vagy 8bit jelölésű változatot is, amelyek csökkentett méretűek (kb. 1-3 GB). Utóbbiak ugyan sokszor kisebb felbontásúak, de gyengébb gépeken – ahol fontos a spórolás a tárhellyel, illetve a RAM és a CPU/GPU kisebb terhelése -, vagy iPaden érdemesebb ezeket használni.
A Sogni több módon is tud alkotni a gépünkön. Az oldalsáv Advanced részében meghatározhatjuk, hogy CPU & GPU, CPU & Neural Engine, vagy CPU & GPU & Neural Engine üzemmódban dolgozzon. A Neural Engine bevetésével sokkal gyorsabbá válik a képgenerálás a több lépéses modellek esetében is, ám ez sajnos nem mindegyikkel működik. Az SDXL és SD3 kínálat darabjait csak CPU & GPU módban használhatjuk, ami jelentős többletterhelés a gépnek – erős melegedéssel járhat – és lassabb is, de cserébe ezek a modellek jobb képminőséget garantálnak. Az SD 1.5 alapú és LCM modellek viszont működnek így is, úgy is, csak épp a CPU & Neural Engine üzemmódban szó szerint villámgyorsak és még csak langyos sem lesz tőlük a gép a munka során. Ellenben a CPU & GPU beállítás általában jobb képminőséget garantál az SD 1.5 alapú modelleknél is.
Arra viszont érdemes figyelni, hogy az üzemmódokhoz a program külön-külön változatba fordítja le a kívánt modellt, így ha valamelyiket mondjuk két üzemmódban is el akarjuk érni, az bizony dupla tárhelyet visz el. Bár választható manuálisan is, de a program automatikusan beállítja a használandó scheduler (DMP Solver, PNDM, LCM, Discrete Flow Scheduler) és time spacing (Linear, Leading, Karras) opciókat is.
Extrák és használat a gyakorlatban
Ha már fentebb hivatkoztunk rá, akkor gyorsan eláruljuk, hogy a Sogni az alapértelmezett, maximum 1024×1024 pixel felbontású generált képek felbontását – szintén MI segítséggel – dupla méretűre (2048×2048 pixel) tudja növelni, az Upscale funkcióval. Emellett a képminőségen sokat dobhat, ha az első generálás után a Guide funkciót bekapcsolva az adott képet rögzítjük mintaként és elvégzünk egy újabb képgenerálást, ugyanazzal a prompttal. Ez ilyenkor ugyan egy plusz lépés, de már gyorsabb folyamat és sokat dobhat az eredeti kép minőségén, például kijavítva az esetleges kezdeti hibákat. Vannak modellek, amelyeknél ezt a kétlépcsős megoldást kifejezetten javasolják.
Bár a Sogni csak 1:1 képarányban dolgozik, de van egy Canvas funkció is, így az alapból 1:1 képarányú képeket utólag kiterjeszthetjük bármely irányba. Mondjuk ez a tesztek során vegyes sikerrel működött, ráadásul csak a Standard / LCM modelleket tudjuk használni erre a célra, az SDXL verziókat nem, de a célnak sok esetben így is megfelel. Ha elsőre nem is mindig, de többszöri próbálkozásra általában elérhetjük vele, amit akarunk.
S ha már itt tartunk: vannak ControlNet eszközök is, amelyekkel finomabban szabályozhatjuk a képgenerálási folyamatot, különféle feltételek megadásával. Ez lehetővé teszi például, hogy kompozíciókat vagy emberi pózokat egy referenciaképből egy újonnan generált képbe átvigyünk. Így irányíthatjuk az alanyok elhelyezését, megjelenését, sőt még a pózukat is. Ha kombináljuk a fentebb emlegetett Guide modullal, nagyon kreatív és egyedi képeket hozhatunk létre. Erre is vonatkozik ugyanakkor, hogy csak ControlNet kompatibilis modellekkel használható.
Vannak úgynevezett előfeldolgozó (Preprocessor) funkciók is, ezeket tudjuk használni a ControlNet-en belül például az arcok vagy végtagok pozícionálásához a képen (Face Capture, Pose Capture). Egy referenciaképet megadva, a program a promptban körbeírt tartalmat a referenciában beazonosított elrendezéshez tudja igazítani. De ugyanígy tudunk vele rajzolt vázlatokat (Sketch/Outline), mélységtérképet (Depth Map), vagy szegmentációs térképet (Segmentation) létrehozni egy meglévő képből, hogy aztán ezeket felhasználjuk egy újabb kompozícióban is. Utóbbival maszkolhatjuk is témákat vagy épp a hátteret. Igaz is, maszkolás: erre van külön Mask gomb is az eszköztáron, merthogy a Sogniban arra is van lehetőség, hogy egy kép kiválasztott részletét kijelölve csak azt cseréljük le, miközben a környezetét meghagyjuk eredetiben (InPaint). Természetesen referencia képként nem csak a Sogni által generáltakat tudjuk felhasználni, hanem bármilyen képet betölthetünk a gépünkről.
A kész képeket egyébként nem csak a gépre exportálhatjuk, hanem menthetjük a program saját Galéria moduljába (Gallery) is. Ennek előnye, hogy így nem csak a képet tárolhatjuk el, hanem az összes, a létrehozáskor használt jellemzőt is, vagyis láthatjuk a generáláshoz használt prompt és esetleges negatív prompt (amit tuti nem akarunk látni a képen) szövegét, a modellt, seed számot, a beállított lépésszámot és a guidance opciót, a használt stílusokat stb. Ezeket egyetlen kattintással visszaállíthatjuk és a képet is újra felhasználhatjuk ilyenkor referenciaként, ha szeretnénk. De akár .sogni formátumba is elmenthetünk projekteket, ha később még dolgozni szeretnénk rajtuk.
S ha már szóba kerültek a stílusok és a negatív promptok, akkor adózzunk ezeknek is pár mondattal. A Sogni ugyanis temérdek remek stílusbeállítást kínál egy választható listában. Ha kijelölünk egyet, akkor annak megfelelően kiegészíti a promptot néhány, a választott stílusra vonatkozó kulcsszóval. Persze ezeket adott esetben mi is beírhatjuk a promptba, s az sem gond, ha itt is, ott is szerepelnek. A dupla szerepeltetés nem befolyásol semmit, ha egy kulcsszót nyomatékosítani akarunk, akkor a (szó), ((szó)), (szó:1.5) stb. jelöléseket kell használnunk a szövegben, míg ha kevésbé fontos az adott szó, akkor azt szögletes zárójellel jelölhetjük. Negatív promptot nem vagyunk kötelesek megadni, de az Avoid szövegmezőben ezt is megtehetjük. Ehhez amúgy – mint minden máshoz – kapunk egy kis segítséget is, ha az opció melletti ? ikonra kattintunk. A megjelenő – angol nyelvű – segédletből Vágólapra másolhatunk komplex negatív promptokat is, a készítendő kép tartalmának megfelelően.
Ez a nagylelkű segítség amúgy szinte minden opciónál és modellnél tetten érhető. Bármelyiknél kattintunk a ? ikonra, – igaz, csak angolul, de – nagyon részletes magyarázatot kapunk annak működési elvéről és használatáról, egy felugró buborékban. Ezért is írtuk az elején, hogy a Sogni felülete rendkívül felhasználóbarát. Jó, azt nem állítjuk, hogy 1 perc alatt nulláról a mesterei leszünk, de pár képnyi próbálkozás után már elsajátíthatók az alapok és gyorsan megszokjuk, mikor, mire kell figyelnünk ahhoz, hogy megfelelő képminőséget kapjunk. Az összes modellhez mellékeltek példa képeket a modellválasztóban, amelyeket egy kattintással újrahasznosíthatunk, hogy elsőre is lássuk, milyen beállítások optimálisak az adott modell esetében.
Ami még fontos lehet a képgenerálás szempontjából: az Advanced részben bekapcsolhatjuk az automatikus nagyítás (Auto Upscaling) funkciót, illetve ha el szeretnénk kerülni az erotikus, explicit vagy egyéb módon potenciálisan zavaró vagy sértő elemek megjelenését a képeken, akkor bekapcsolhatjuk a Safe Content Filter funkciót is.
Mielőtt továbblépnénk, térjünk még vissza egy pillanatra a Steps és Guidance opciókhoz. Ha olyan modellt választunk, amely alkalmas a realtime üzemmódra, akkor itt megjelenik egy kis kapcsoló, amellyel ezt az üzemmódot aktiválhatjuk. Ha be van kapcsolva, akkor az újabb képek generálásához nem kell mindig az Imagine gombra kattintani, hanem automatikusan generálódik a friss kép, ahogy változtatunk (akár egy vesszőt is) a prompt szövegén. Vagyis azonnal láthatjuk, hogy egy-egy kulcsszónak milyen hatása van a képre.
Videók létrehozása
A Sognival tehát gond nélkül megy az AI képgenerálás saját gépen, ám ez a program nem csak képeket, hanem videókat is kreál, ha kérjük. Ehhez az eszköztáron be kell kapcsolni a videógeneráló funkciót, és ugyanott meghatározni a kívánt hosszt (másodpercben) és az fps sebességet. A tökéletesebb eredmény érdekében ilyenkor automatizálhatjuk a Guide és ControlNet funkciókat is.
Ha bekapcsoltuk a videógenerálást, megjelenik egy Keyframes opció is, amellyel kulcspontokat határozhatunk meg leendő videónkban. A kulcspontoknál változtathatunk a prompton, stíluson, ControlNet és Guide beállításokon, kamerajellemzőkön, kameramozgáson stb. Nem állítjuk, hogy ez így rendkívül egyszerű módja a videókészítésnek, de ha azt vesszük, hogy a semmiből alkothatunk meg látványos animációkat, akkor azért megéri egy kicsit elmerülni az optimális leírások és beállítások megtalálásában.
Értelemszerűen itt is előnyösebb lehet a Standard gyűjteménybe tartozó modellek választása, különben igen sokáig elhúzódhat a folyamat, bár ez függ a választott hossztól és fps beállítástól is. Cserébe itt is él az örök igazság: az SDXL azért jelentősen jobb képi eredményeket hoz.
Összegzésül
Mindent egybevetve a Sogni kezelhetőségben és lehetőségekben jelentősen túlmutat ingyenes és fizetős konkurensein egyaránt. Egyedül azt lehet neki felróni, hogy ragaszkodik az 1:1 képarányhoz, ami miatt – ha mi eltérnénk ettől – extra lépésekben kell utólag megnövelni a vászon méretét, ami ráadásul nem mindig vezet megfelelő eredményre.
Ezt leszámítva a program hihetetlenül egyszerű és – a Standard + LCM modellek esetében – tényleg villámgyorsan megy vele az AI képgenerálás saját gépen. Az SDXL modelleknél már erősen függ a sebesség attól, hogy az Apple Silicon alapú Macek közül épp melyik változatot (M1, M2 stb.) használjuk, mennyi RAM van a gépben és az adott modellnek melyik verzióját (teljes, 6bit, 8bit stb.) töltöttük le. Utóbbiak között egyébként könnyen válthatunk bármikor, szóval akinek a gépe bírja tárhellyel, akár több variációt is letölthet ugyanabból a modell változatból.
A Sogni – cikkünk készültekor – 8990 forintos áron szerezhető be az App Store-ból, amiért cserébe Macen, iPhone-on és iPaden is használhatjuk (a választható modellek viszont eltérnek az adott platformokon!). Próbaverzió viszont sajnos nincs belőle.















