Mostanra már tényleg Dunát lehet rekeszteni a generatív mesterséges intelligenciára épülő képgeneráló szolgáltatásokkal, bár az is hozzátartozik az igazsághoz, hogy a legtöbb csak a már létező modelleket hasznosítja újra. A tömegből mindenképpen kitűnik – és tulajdonképpen az egész AI képgenerálási hullám elindítójának is tekinthető – az OpenAI-féle DALL-E, amelyből nemrég jelent meg a harmadik fő kiadás. A DALL-E 3-ról írtunk már részletes tesztet, s ott azt is elárultuk, hol és hogyan lehet működésre bírni. Mai cikkünkben azt mutatjuk meg, miként megy a képek létrehozása ChatGPT-vel, természetesen DALL-E 3 alapon.
Képek létrehozása ChatGPT-vel DALL-E 3 alapon, weben és appban
A ChatGPT eredetileg alkalmatlan volt képek létrehozására, ám a DALL-E 3 megjelenése után nem sokkal ezt a funkciót is integrálták a fejlesztők. Így mostantól – hasonlóan a Microsoft-féle Bing Chathez, amely szintén ezzel a megoldással hoz létre képeket a felhasználók utasításai alapján – a ChatGPT is alkalmas e feladatra. Méghozzá a webes felületen és a hivatalos ChatGPT appban (iOS, Android) egyaránt.
Sajnos a Microsoft AI csevegőjével ellentétben a ChatGPT ezt az extra funkciót nem ingyen nyújtja. Ahhoz, hogy használhassuk, elő kell fizetnünk a ChatGPT Plus csomagra, amit megtehetünk a webes felületen éppúgy, mint a ChatGPT appokban, alkalmazáson belüli vásárlással. Ha ChatGPT Plus tagok vagyunk, már lehetőségünk van elérni a GPT-4 nyelvi modellt, s ha ez így van, rögtön választhatunk is, hogy mindössze cseverésznénk vele, esetleg kihasználnánk az immár szintén elérhető Bing kereső nyújtotta lehetőségeket, vagy DALL-E üzemmódba váltunk, s nekilátunk képeket létrehozni szöveges leírás alapján.

Utóbbihoz mindössze annyi a teendőnk, hogy úgy csevegést nyitunk a ChatGPT-ben (weben vagy appban), majd a GPT-4 nyelvi modell gombjára kattintva/koppintva a lenyíló listából kiválasztjuk a DALL-E opciót.
Ettől kezdve a chat felületen egyszerű szöveges leírással utasíthatjuk a programot, hogy milyen tartalommal, milyen stílusban hozzon létre számunkra új képeket. Alapértelmezésben két 1:1 képarányú darabot. Utóbbi azért érdekes, mert immár arra is van lehetőség, hogy 16:9 képarányban kérjük a képet.
Erre vagy eleve a leírásban kell utasítani a ChatGPT-t, vagy utólag is kérhetünk nagyítást. Ehhez elég, ha beírjuk a nagyítsd az első képet, a nagyítsd a második képet, vagy épp a nagyítsd mindkét képet utasítást. Ugyanezt érhetjük el a készíts 16:9 arányú képet az elsőből vagy hasonló utasítással is.
A nagyítás nem növeli lényegesen a képfelbontást, csak kiegészül tartalommal a kép két széle és ennyivel megnő a képméret. Az 1:1 képarányú képek 1024×1024 pixel felbontásúak, ha ezekből nagyítunk, akkor 1792×1024 pixelre növelhetjük vele a képet a szélesség módosításával. Értelemszerűen nem csak szélességet, hanem magasságot is növelhetünk ugyanígy, vagyis állóképeket is létrehozhatunk.
Az egyébként mindegy, hogy magyarul, angolul vagy más támogatott nyelven kommunikálunk a ChatGPT-vel a képek létrehozásakor. Ha magyarul írjuk körbe az elképzeléseinket, azt éppúgy végrehajtja, mintha angolul tesszük. Ráadásul a ChatGPT alapértelmezésben nem elégszik meg a leírásunkkal, hanem az alapján létrehoz egy részletesebb, hatékonyabb eredményre vezető promptot és azt adja át a DALL-E 3 képgenerálónak. Az így létrejövő prompt megtekinthető, ha a kész képre kattinttunk és a képnézegető felületen bekapcsoljuk az oldalsávot, ahol látni, hogy pontosan milyen – amúgy ekkor már mindenképpen angol nyelvű – prompt alapján készült kép.
Önmagában a képarány módosítása is nagyon praktikus lehetőség, de ezen felül is van még lehetőségünk módosítani egy-egy elkészült képet. Kérhetjük például a tartalom egyes részleteinek cseréjét is, de módosíthatunk perspektívát (ráközelíthetünk, vagy épp távolíthatunk a kép tárgyától), variálhatjuk a színvilágot (adott szín letiltása vagy a teljes kép átszínezése) és a világítást (világosíthatjuk a képet, vagy épp alakíthatjuk holdfényes vagy naplementés témára), de hozzáadhatunk további részleteket (felhők, állatok, tárgyak stb.) is. Vagyis nem kell beérnünk egyetlen kép létrehozásával, azt szöveges utasításokkal módosíthatjuk is.
Bár alapértelmezésben inkább fotókat igyekszik létrehozni a program, ha másként utasítjuk, akkor lehet a végeredmény festmény, ceruzarajz vagy bármilyen egyéb képi stílusú alkotás.
A képeket az adott rendszernek megfelelő módon tudjuk letölteni (például jobb klikk a képen és Letöltés menüpont) a gépünkre, okostelefonunkra, tabletünkre. A DALL-E-val készült képeket szabadon használhatjuk, amennyiben az megfelel minden tartalmi követelménynek (ha nem, azt általában időben megtudjuk, mert eleve nem hozza létre a nem megfelelő tartalmú képeket a program). Erre vonatkozóan érdemes áttanulmányozni az alábbi két OpenAI oldalt: Terms of use, Content policy. S ha már jogi kérdések kerültek szóba, fontos megemlíteni, hogy 2024 februárjától a ChatGPT már a C2PA (Coalition for Content Provenance and Authenticity) sztenderdnek megfelelően láthatatlan vízjelet helyez el a generált képeken, így is harcolva a félretájékoztatás ellen, s biztosítva, hogy a képekről megállapítható legyen, milyen módon készültek. A vízjel meglétés ellenőrizhetjük például az Adobe ingyen elérhető Content Credentials weboldalán.
A DALL-E 3 egyébként egészen lenyűgöző képeket produkál néha, de azért sokszor van szükség több lépésre, mire olyan eredményre jutunk vele, amire vágytunk. Ha nagyon “beakad” nála egy adott stílus vagy képi tartalom és nem jutunk dűlőre, érdemes új chatet indítani DALL-E üzemmódban és újrapróbálni, hogy eltérő alapoktól tudjon indulni az alkotási folyamat.
Mivel a GPT-4 használata a ChatGPT Plus előfizetők esetében is korlátozott (jelenleg 50 üzenet három óránként), ez vonatkozik a képek létrehozására is. Természetesen amint letelt a korlátozási idő, ott folytathatjuk, ahol abbahagytuk. Addig legfeljebb cseveghetünk a GPT-3.5 nyelvi modellel, ami ingyen is használható. Képeket viszont azzal sajnos nem tudunk létrehozni.











