A generatív mesterséges intelligenciára épülő csevegőket emlegetve a többségnek általában a ChatGPT vagy a Microsoft Copilot ugrik be, pedig mostanra ez a kettő már csak a töredéke a teljes kínálatnak. Más kérdés persze, hogy a legtöbb ilyen app és szolgáltatás a ChatGPT alapját képező GPT modellekre épül. Ám az a helyzet, hogy egy MI-alapú chat alkalmazással nem csak hétköznapi dolgokról cseverészhetünk, hanem akár képeket is létrehozhatunk bennük, pusztán egy rövid szöveges leírás alapján. Ha pedig ez a csevegő kifejezetten egy olyan csapattól érkezik, akik a kép-, videó-, és zene generálásra esküdtek fel, akkor ott jóval többet eszközt kapunk erre a célra, mint a szimpla AI-chatekben. Ma megmutatjuk, hogyan megy a Stable Assistant használata, avagy miként oldható meg a képek, videók és zenék készítése a csevegőben.
Stable Assistant használata: képek, videók és zenék készítése a csevegőben, online
A Stability.ai csapata meglehetősen sok vasat tart a tűzbe: hozzájuk tartozik többek között a Stable Diffusion képgeneráló modell, a Stable Audio zenegenerátor, és a Stable Video Diffusion videógeneráló egyaránt. Ezekből aztán van már több verzió is, köztük szabadon felhasználható változatok és licencelhetők egyaránt.
Ha viszont valaki e három modellből a legújabbakat szeretné használni teljes kényelemben és hatékonyan, akkor érdemes lehet elgondolkodni egy Stable Assistant előfizetésen. Ez a cég saját csevegője, amely szövegírás és fordítás szempontjából egyelőre nem veszi fel a versenyt a konkurensekkel, de ha képeket kell készíteni, dalokat generálni, vagy videókat, animációkat kreálni egy kép vagy leírás alapján, akkor már ott van a szeren. Tesztünk készültekor a Stable Diffusion 3 képgeneráló, a Stable Audio 2 zenekészítő, és az egyelőre még finomhangolás alatt álló Stable Video Diffusion videógeneráló modell állt a rendelkezésünkre. Ezekkel lehet dolgozni a Stable Assistant hagyományos chat alkalmazásokat megidéző felületén. A használata rendkívül egyszerű: miután nyitottunk egy új csevegést a New Chat gombra kattintva, azonnal kérhetünk tőle a támogatott médiaformátumok közül bármit: képet, zenét, videót. Egyszerűen beírjuk, hogy mit kérünk, majd utána részletezzük, hogy pontosan milyen jellegű tartalomra vágyunk, mi legyen látható a képen vagy videón, vagy milyen stílusú zenére lenne szükségünk. Mindezt – jelenleg – csak angolul!
Képek esetében áll rendelkezésünkre a legtöbb lehetőség. A Stable Diffusion 3 modell immár összetettebb kéréseket is hatékonyabban dolgoz fel, így az sem hozza zavarba, ha egy képen több fő motívumhoz kell igazodnia. Emellett az elődeihez képest sokkal hatékonyabban bánik a feliratokkal is, így ha a képre azt is tennénk, csak írjuk bele a kérésbe.
A csevegő felületén találunk egy Beállítás gombot is, erre kattintva kiválaszthatjuk a generálás előtt a kívánt képarányt (1:1, 16:9, 3:2, 4:5, 9:16). Emellett van lehetőségünk egy kiindulási kép feltöltésére is, amelyhez a program igazodhat a kompozíció megalkotásakor. Ha elkészült a mű, azonnal le is tölthetjük, de ha előbb rákattintunk az előnézeti képen látható kis táska ikonra, további műveleteket is elvégezhetünk rajta:
- Search and Replace: Ezzel egy csapásra lecserélhetünk részleteket a képen, de nem a kijelölésükkel, hanem egyszerűen úgy, hogy körbeírjuk a cserélendő részt. Például a háttér cseréjét kérhetjük a kép tárgya mögött.
- Inpaint: Ezzel is cserélhetjük a kép egy adott részletét másra, de itt nem körbeírni kell a cserélendő témát, hanem kijelölni a képen azt a részt, amit átszabnánk.
- New Image with Same Structure: Ezzel új képet hozhatunk létre, az adott kép struktúrájához hasonló felépítésben.
- New Image with Same Style: Ezzel a kép stílusát másolhatjuk át egy új kép létrehozásakor.
- Zoom out: Kiterjeszthetjük a képet több irányba.
- Erase: Hasonló az Inpainthez, de csak azt kell kijelölni, amit törölnénk a képről, a program maga határozza meg, mi kerül a helyére (a környezetnek megfelelően).
- Image to Video: Ezzel a funkcióval mozgásba hozhatjuk a képet, videót kreálva belőle.
- Upscale: Az alap felbontás nem éppen óriási a Stable Diffusion esetében, de az Upscale funkcióval ezt többszörösére növelhetjük (például egy alap, 16:9 képarányú 1344 × 768 pixeles képből így lesz 4112 × 2352 pixeles).
- Sketch to Image: Rajzolhatunk, a program pedig ennek megfelelően alakítja ki a leendő kép felépítését, elrendezését.
- Remove Background: Ezzel eltávolíthatjuk a kép tárgya mögül a hátteret.
Ilyen szempontból a Stable Assistant elég komoly képszerkesztési funkciókat is kapott, amelyeket ráadásul gyerekjáték használni a felületen.
A videók és zenék tekintetében egyelőre szűkmarkúabbak a fejlesztők, de videót létrehozhatunk szöveges leírás, vagy a fentebb említett Image to Video funkciót bevetve egy frissen készült kép alapján is, a zenéket illetően pedig elegendő körbeírni nagyjából, hogy milyen stílusú, hangulatú, tempójú – instrumentális – dalra lenne szükségünk, és a Stable Audio 2 modell olykor lenyűgöző minőségben összedobja azt számunkra, akár 3 perces hosszúságban is.
Az elkészült médiafájlokat a böngészőnkben megszokott módon tudjuk letölteni a chat felületről, de létrehozhatunk hozzájuk közvetlen linkes megosztást is a nézőképeket látható megosztás gombra kattintva.
Megéri előfizetni?
Nos, ez egy elég jó kérdés. Mivel a Stable Diffusion korábbi változataira meglehetősen sok online képkészítő szolgáltatás és akár offline is használható képgeneráló alkalmazás épül, erre a kérdésre nehéz felelni. Persze az offline eszközök erős gépet igényelnek, így nem mindenki tudja a saját konfigurációján futtatni ezeket. Az online szolgáltatásokban viszont akadnak olyanok, amelyek olcsóbban gyártják a Stable Diffusion modellekre (SD 1.5, SDXL) építve a képeket. Annyi előnye van jelenleg a Stable Assistantnak ezekkel szemben, hogy itt már a jelenlegi legfejlettebb – SD3 – modellt használhatjuk és nagyon könnyen használhatók a képszerkesztő funkciók. Emellett itt nem csak képeket, hanem videókat és zenéket is létrehozhatunk (bár utóbbiakat a külön elérhető Stable Audio webes felületen is elkészíthetjük).
Több csomag közül is választhatunk, a legolcsóbb, 9 USD / hónapos előfizetéssel jelenleg 900 kredit jár. Ez elsőre soknak tűnik, de sajnos egy kép akár 6.5 kreditet is elvihet, s a többi funkció is változó kredit mennyiségért áll a rendelkezésünkre, szóval ha folyamatosan használjuk, elég gyorsan ledarálható ez a keret. Ráadásul a 3 napos próbaverzió egy vicc, ahhoz ugyanis 50 kredit jár, amivel képtelenség minden funkciót kipróbálni. Még a sima kérdések megválaszolása is 0.1 kreditbe kerül, bár az már csak töredéke a többinek.
Emellett a DALL-3 szerintünk hatékonyabb a képgenerálásban, így ha csak erre van szükségünk, lehet, hogy még egy ChatGPT Plus előfizetés is jobban megéri a maga 9000 forint körüli árával, mert ott nincs ilyen mértékű havi kredit korlát és hozzáférhetünk vele a DALL-E 3 képgenerálóhoz, illetve annak képszerkesztő funkciójához is. Cserébe ott lemondhatunk a Stable Audio és Stable Video Diffusion funkcióiról. Amúgy ingyen is használhatjuk a DALL-E 3-om funkcióinak egy részét a Microsoft Copilotban.
Az, hogy valakinek megéri-e így hozzáférni a Stability.ai modelljeihez, több szemponttól is függ, többek között az is befolyásolja a dolgot, hogy milyen témakörben, stílusban alkotnánk, s arra mennyire alkalmasak ezek a modellek. Temérdek olyan eset van, amikor tökéletes választás lehet. Emellett nem árt tisztában lennünk a generált alkotások felhasználási lehetőségeivel sem, amivel kapcsolatban itt lehet megtalálni a cikkünk készültekor aktuális licenc útmutatót. De itt is találunk ezzel kapcsolatban FAQ összeállítást.










