Mostanra AI rovatunk egyik állandó vendége lett a Stable Diffusion képgeneráló modell, amely önmagában is használható – akár offline telepítve a számítógépre vagy okostelefonra -, de amúgy számtalan webes képgeneráló szolgáltatás egyik alap motorja is (lásd NightCafe). Mert hát a mesterséges intelligencia segítségével ma már nem kunszt képeket létrehozni némi szöveges leírás alapján, s persze szabadon cseveghetünk számtalan MI-alapú chatbottal is (ChatGPT, Google Bard, Bing Chat). Ezek után már tényleg hiányérzete volt az embernek, hogy az eddigi, kezdetleges próbálkozások után végre a zenegenerálók világa is felbolyduljon és elérhető legyen egy, a népszerű képgenerálókhoz hasonló megoldás, amely rövid szöveges leírás alapján képes összedobni egy általunk elképzelt dalt. Nos, nem kell tovább várni, a napokkal ezelőtt megjelent Stable Audio használata ugyanis éppoly egyszerű, mint a képgenerálóké. Mostantól tehát elérhető a kényelmes zenekészítés ingyen, AI segítséggel.
Zenekészítés ingyen, AI segítséggel
A bevezetőben említett Stable Diffusion modell készítői nem álltak meg a képgenerálásnál, hasonló módszert dolgoztak ki a zeneszámok létrehozására is, Stable Audio néven. A webes szolgáltatás teljesen ingyen kipróbálható, sőt, saját célra akár havonta 20 új dalt is létrehozhatunk vele díjmentesen, a legújabb Stable Audio 2.0 motort használva már akár 3 perces hosszúságban is. Ha ennél többre van szükségünk, és a dalokat felhasználnánk kereskedelmi célra készült projektekben is (videók, játékok, podcastok stb.), akkor vagy a Professional, vagy az Enterprise csomagra kell előfizetnünk. Előbbivel már havonta 500 dal kreálható. A Stable Audio 2.0 egyébként sokkal jobb minőségű dalokat komponál, mint az első 1.x-es kiadások. Így érdemesebb ezt használni, ha valóban élvezhető dallamokra vágyunk.
A dalok hossza egyébként több szempontból érdekes: a Stable Audio fejlesztésekor az egyik fontos cél az volt, hogy tetszőleges, a felhasználó által megadott hosszúságú dallamokat tudjon létrehozni a mesterséges intelligencia, jó minőségben, megfelelően felépítve a dal minden részét. Az úgynevezett latent diffusion modell architektúra sokkal jobb eredményt hozhat, mint a korábbi megoldások. A modell képzéséhez 800 ezer hangfájlt – zenék, hangeffektek stb. – és a hozzájuk tartozó szöveges metaadatokból álló adatbázist használ, az AudioSparx zenei szolgáltatóval kötött megállapodás keretein belül. Ez amúgy összesen több mint 19 500 órányi hanganyagot jelent. Vagyis van miből felépíteni a felhasználó által kért dallamokat.
A Stable Audio használata
Mint már említettük, a Stable Audio zenegeneráló a felhasználó szempontjából szinte teljesen a már megszokott képgenerálók működési módjára emlékeztet: szöveges utasításokkal kell körbeírnunk, pontosan milyen dalra lenne szükségünk. Ennek lépései e cikk készültekor a következők:
- Nyissuk meg a Stable Audio oldalt.
- A Try it out gombra kattintva jelentkezzünk be a Log in linkre kattintva a megjelenő oldalon, vagy ha még nincs Stable Audio fiókunk, akkor ingyenesen hozzunk létre egyet (e-mail cím és egy általunk kitalált jelszó kell csupán hozzá).
- Első alkalommal el kell fogadnunk a felhasználói szerződést, ahogy ez a legtöbb hasonló szolgáltatásnál is működik, de ez csupán egy kattintás, s ettől kezdve már dolgozhatunk is leendő dalunkon.
- A text prompt részben írjuk körbe pár szóban – vesszővel elválasztva a kifejezéseket -, hogy milyen zenei stílusra, ritmusra, zenei témára stb. lenne szükségünk.
- Állítsuk be a duration opcióban, hogy hány másodperces legyen a dal hossza.
- Ha megvan a leírás és a hossz, csak egy kattintás a nyíllal jelölt zenegenerálás gombra, s pár másodperc alatt elkészülhet a kívánt dal.
Ennyi! Az alapvető használat nem éppen bonyolult. Ám ha ennél kicsit többre vágyunk, s szeretnénk jobb eredményt elérni a dalok minőségét illetően, érdemes elolvasni az online felhasználói kézikönyvet, amelyben a Prompt example részben számtalan példát is találunk, a leírás alapján generált egy-egy minta dallammal egyetemben.
Érdekesség, hogy a Stable Audio segítségével nem csak zenét, de kívánt hosszúságú hangeffekteket is létrehozhatunk, szinte bármilyen témakörben. Ilyen szempontból akár arra is használhatjuk, hogy csengőhangokat kreáljunk vele.
Az elkészült dalokat a Stable Audio felületéről egyetlen kattintással letölthetjük, akár MP3 formátumban. Ha előfizetni is hajlandók vagyunk, akkor az MP3 mellett a tömörítés nélküli, jobb hangminőséget biztosító WAV formátum is rendelkezésre áll letöltéskor.
Mire képes?
A Stable Audio használata tehát nagyon egyszerű, ráadásul ingyen áll bárki rendelkezésére, hogy kipróbálja. Így már csak egy kérdés marad: milyen minőségben hozza létre a dalokat a Stable Audio? Nos, az első verzió nagyjából olyan szinten volt, mint anno a Stable Diffusion az első pár verzió megjelenésekor: jó, jó, de azért kellő időt kell rászánni a kísérletezésre, hogy a végeredmény ténylegesen használható legyen. A Stable Diffusion 2.0 már sokkal jobb eredményeket produkál, ráadásul van két rendkívül fontos újítása a hatékonyabb zene-generáláson túl: immár 3 perces az időlimit, illetve van lehetőség korábban készített dalok, vagy akár feltöltött hangfájlok alapján dolgozni.
Mindemellett lássuk be: itt mindössze pár szöveges leírás megadása kell csak ahhoz, hogy mondjuk egy videóhoz egyedi zenei aláfestést készítsünk, zenei képzettség vagy hangszeres ismeret viszont egyáltalán nem szükséges. S bár most még nem mindig tökéletes a végeredmény, megnyugtatásul közöljük, hogy kezdetben a Stable Diffusion képgeneráló modell sem volt az. De ha valaki megnézi e cikk nyitóképét, amelyet a Stable Diffusion SDXL verziójával hoztunk létre, akár ez alapján is biztos lehet, hogy pár verzió – és pár hónap – múlva talán egészen megdöbbentő eredményre számíthatunk majd, ha a Stable Audio is a Stable Diffusionhoz hasonló tempóban fejlődik.









