Hangfelvétel szöveggé alakítása és videók feliratozása magyarul, AI segítséggel

Meglehetősen idegtépő dolog, amikor valaki lassan gépel, viszont élőben kellene jegyzetelnie egy megbeszélésen, vagy épp valamilyen korábbi hangfelvételből kénytelen gépelt szöveget varázsolni, határidőre. Korábban mutattunk már olyan online szolgáltatást, amellyel a hangfelvételeket szerkeszthető szöveggé lehet alakítani, de azt kell mondjuk, az kifejezetten gagyinak tűnik a ma górcső alá kerülő megoldáshoz képest. Különösen, ha magyar nyelvű anyagok feldolgozásáról és készítéséről van szó. Akár egy hangfelvétel szöveggé alakítása, akár videofelvételek vagy Youtube videók feliratozása, akár élő beszéd gyors átalakítása a feladat, ez a magyar fejlesztésű online szolgáltatás tökéletes választás. Már csak azért is, mert a mesterséges intelligencia és a gépi tanulás is a segítségünkre lesz a munka során.

Alrite: magyar nyelvű hangfelvétel szöveggé alakítása

Mindig nagy öröm, amikor a kategóriájukban élvonalba tartozó hazai fejlesztéseket tudunk bemutatni (lásd ForkliftFitadoTresorit stb.). Ebbe a sorba tökéletesen illeszkedik az Alrite is, amely egy magyar nyelvre optimalizált, gépi tanulásra épülő beszédfelismerő szolgáltatás, a Régens – egy immár 20 éves szakmai tapasztalattal rendelkező – informatikai vállalat fejlesztésében. A cég egyébként elsősorban a közigazgatás és az ellátási lánc menedzsment területén ismert, Magyarország piacvezető vámszoftver szolgáltatója. 

Az Alrite lényege, hogy akár friss, a szolgáltatással készülő hangfelvételeket, akár korábban rögzített hanganyagokat egyaránt képes szerkeszthető szöveggé átalakítani. Mindezt úgy, hogy kifejezetten a magyar nyelvű beszédfelismeréshez optimalizálták, vagyis amellett, hogy felismeri a szavakat, képes megfelelő helyeken elhelyezni a szövegben az írásjeleket is (a párbeszédeket is felismeri). A program – az igény fejlesztők felé történő jelzésével, egyedi fejlesztés keretében – tovább is tanítható. Így ha különlegesebb szakkifejezéseket használunk, ezekkel is kiegészíthető, hogy gördülékenyebb legyen a felismerés.

Videofelvételek és Youtube videók feliratozása magyarul

Bármily meglepő, manapság a videókat rengetegen – különféle felmérések szerint közel a felhasználók 85%-a – többnyire hang nélkül, a feliratokat olvasva nézik a Youtube-on és a közösségi oldalakon. Ennek oka, hogy az okostelefonok, tabletek használatával gyakorlatilag bárhol, bármikor belefoghatunk videók nézésébe, viszont az már közel sem biztos, hogy az adott szituációban felhangosíthatjuk azokat. Márpedig ha épp nincs nálunk füles, vagy azt sem használhatunk az adott helyzetben, akkor nem marad más, mint a feliratokkal pótolni a hangot. Érdekesség, hogy egy Facebook felmérés szerint még az átlagos megtekintés hossza is megnőhet a feliratozott videóknál. Ezek alapján hatalmas fegyvertény, hogy az Alrite képes a videók feliratozására is. 

Nem csak saját készítésű videókhoz készíthetünk vele srt formátumú feliratfájlt (pontos időzítésekkel), hanem akár egy Youtube videó linkjét megadva, ahhoz is elkészíti. Természetesen nem csak feliratfájlt kreálhatunk a videókhoz, hanem ugyanúgy létrehozhatunk teljes szöveges leiratokat is azokról. Ilyenkor is nagyon jól jön, hogy a program képes jelölni párbeszédeket is a szövegekben.

Mi – véletlenszerűen – egy jópár évvel ezelőtti Fesztiválkatlan videót választottunk ki a Youtube-ról, ahol több szereplő (riporter és interjúalanyok) beszélget. Ebből a rendszer szinte teljesen hibátlanul elkészítette mind a folyó szöveges leiratot, mind a videóhoz időzített feliratot. Utóbbi időzítéseit pedig azonnal ellenőrizhettük a videofelvétel visszajátszása közben a szerkesztőfelületen.

Konferencia és élő műsor feliratozása

Szerintünk már a fentiekkel is lazán a legjobb magyar nyelvű beszédfelismerővé lehetne avatni az Alrite-ot, de még mindig nem értünk a lehetőségek végére. Mint azt később még kifejtjük, a cégek számára is tartogat extrákat ez a szolgáltatás, de ezek közül is kiemelkedik, hogy akár előadások, konferenciák, élő műsorok feliratozását is rábízhatjuk, hála az úgynevezett stream üzemmódnak. Arról persze nem árt gondoskodni, hogy a szoftverhez a lehető legjobb minőségben jusson el ilyenkor a hang, minél kevesebb háttérzajjal. De ez úgy általában is igaz, ha az ember hangfelvételeket szeretne bármilyen formában feldolgozni.

Használat: böngészőben vagy akár okotelefonon is

Funkcióit tekintve tehát az Alrite igen összetettre sikerült. Amit a magyar nyelvű beszédfelismeréssel kapcsolatban érdemes, azt mind belezsúfolták. Ráadásul a lehetőségek még bővíthetők is, mivel a szolgáltatás API hozzáférést is nyújt fejlesztőknek, hogy integrálhassák az Alrite lehetőségeit a saját megoldásaikba.

Egy átlagos otthoni vagy céges felhasználó szemszögéből azonban ennél sokkal lényegesebb, hogy milyen felületen használhatja ki a fentebb említett lehetőségeket.

Nos, az Alrite használható online, a kedvenc böngészőnkben, illetve okostelefonon is, ha letöltjük az appot Androidra vagy iOS-re. A felület és a felépítés egyébként szinte teljesen azonos ezeken a platformokon, csak értelemszerűen az adott kijelző méretéhez igazodik az elrendezés. Így egy hangfelvétel szöveggé alakítása vagy a videók feliratozása adott esetben akár utazás közben is megoldható, persze ez esetben megfelelő mobilnet segítségével. Felépítését, stílusát tekintve az Alrite kifejezetten jól sikerült. Használatához nincs szükség pilótavizsgára, könnyen kiigazodik a felületen bárki. 

Az Áttekintés lapon részletes információkat találunk az előfizetésünkhöz tartozó időkeretről, az eddigi tevékenységeinkről, illetve egy kattintással elérjük a legutóbb használt fájlokat is, hogy folytathassuk az esetlegesen félbemaradt munkát.

Diktálás lap használatához Chrome, Firefox vagy Edge böngészőre van szükség. Itt közvetlenül a böngészőben (vagy a mobil appban) készíthetjük el a hangfelvételt. A rögzítés végeztével a rendszer azonnal kielemzi a felvételt és elkészíti a folyószöveges leiratot és az időzítéseket tartalmazó felirat változatot is. Utóbbi egyébként közvetlenül nem javítható, viszont a leiratot kényelmesen szerkeszthetjük a felületen, s minden módosítás, javítás azonnal látszik a feliratban is. Mondjuk a tesztek során minimális volt azon esetek száma, amikor javítani kellett a szövegben, s akkor is egy-egy szót értett félre a rendszer (például a “visszatérve az érettségre” helyett “visszatérve az érettségire” lett az eredmény). De amúgy korrekt módon dolgozik, szépen kirakja az írásjeleket, megvan a mondatok eleje és vége, nem okoznak neki gondot a szakkifejezések sem stb. Összehasonlíthatatlanul jobban teljesít egy hangfelvétel szöveggé alakítása közben a konkurens hangfelismerő termékekhez képest, ráadásul tanítható, így ha valamit elsőre nem ismer fel rendesen, később a javítások alapján már jó eséllyel nem nyúl mellé. Természetesen itt is befolyásolja az eredményt, hogy mennyire zajos a környezet a hangrögzítés közben, s előny, ha nem a világ legvacakabb mikrofonját használjuk erre a célra. 

Miután mindennel végeztünk, felvételeinket letölthetjük a szerverről hangfelvételként, szerkeszthető szövegként (docx formátumban), és feliratfájlként (srt formátumban) egyaránt.

Bár nem kértünk erről statisztikát, de jó esély van rá, hogy a többség azért inkább kész felvételek felismerését szeretné majd megoldani a szolgáltatás segítségével. Ennek pedig semmi akadálya, hiszen a Fájlfeltöltés lapon pár kattintással felküldhetjük a szerverre felvételeinket, gyakorlatilag bármely népszerű formátumban: wav, mp3, m4a, ogg, mp4, webm, mov. Nem csak hangfájlokat, hanem akár videókat is feltölthetünk! Ezeknél válik igazán hasznossá a felirat készítési lehetőség.

Van azért néhány megkötés is, így például a felvételek maximális hossza 2 óra lehet, a maximális fájlméret pedig 1 GB. Értelemszerűen nem kell dolby surround minőségű hanganyagot feltöltenünk, szóval akár mono változatban, kisebb mintavétellel is dolgozhatunk, így a fájlmérettel elég jól lehet spórolni. Az idő ugyebár kevésbé manipulálható tényező. Ha a felvételünk túlszaladt a két órán, érdemes esetleg egy ingyenes hangszerkesztővel kivagdosni belőle a felesleget, vagy feldarabolni és több lépésben feltölteni (erre emitt szolgáltunk gyakorlati tippel). 

Maga a felismerési folyamat itt is ugyanaz, mint a hangfelvételnél, s az eredmény is: megkapjuk a leiratot, a feliratot, s előbbit akár közvetlenül a felületen is átjavíthatjuk, ha szükséges. A végén pedig letölthetjük a leiratot és a feliratot egyaránt.

Végül izgalmas lehetőség a Youtube videók feliratainak elkészítése is. Ehhez nincs más dolgunk, mint megnyitni a Youtube feliratozás lapot, s beilleszteni a feldolgozandó Youtube videó linkjét. A rendszer átveszi a videót, feldolgozza, s a feladat végeztével máris megkapjuk az időzítésekkel ellátott leiratot és feliratot.

Vannak amúgy praktikus kis extrák is a programban. Így például a leiratok szerkesztésekor lehetőség van arra, hogy a szövegben épp kijelölt szóhoz ugorjon a hangfelvételben vagy videóban. Így még könnyebb a javítás és a szöveg eredeti hanganyaggal való összevetése. Ez vonatkozik a Youtube videókra is, amelyeket a rendszer átvesz a szerverre, így a szerkesztőfelületen is láthatjuk a kiválasztott Youtube anyagot.

Fontos menüpont még a Saját fájlok is, melyben – nevének megfelelően – az összes addigi felvételünket és feltöltésünket megtaláljuk, amelyeken dolgoztunk. Bármelyiket egy kattintással újranyithatjuk, s folytathatjuk rajta a munkát. Értelemszerűen ilyenkor nem kell újra felismertetni a hanganyagot, hanem a mentésekből dolgozhatunk rajta, azonnal. S ha már itt tartunk: egy ilyen rendszer esetében fontos kérdés lehet az adatbiztonság is, hiszen feltölthetünk akár érzékeny céges információkat tartalmazó hangfelvételeket – például egy új termékről folyó megbeszélés felvételét – is, amelyek egészen addig ott tárolódnak a szerveren, amíg nem töröljük azokat. Máris elmeséljük, ezzel mi a helyzet!

Céges eszköztár és biztonság

Az Alrite jól jöhet bármely otthoni felhasználónak, aki akár egy Youtube videóhoz szeretne feliratokat gyártani, vagy egy diáknak, aki az előadás hangfelvételéből gyártana Word dokumentumot. De a céges felhasználási lehetőségek száma is szinte végtelen. Ennek megfelelően a Régens fejlesztői gondoltak az üzleti felhasználókra is:

  • Több üzleti csomag közül is választhatunk, ezek mindegyikénél van lehetőség arra, hogy eltérő jogosultsági szintet osszunk ki a céges felhasználóknak a rendszer szolgáltatásaihoz.
  • Az adatok biztonságos felhő infrastruktúrán tárolódnak, Magyarország területén üzemeltetett, kifejezetten az Alrite-nak fenntartott szervereken. A feltöltött vagy a szolgáltatásban létrehozott állományokhoz és a megadott adatokhoz a jogosultsági beállításoknak megfelelően férhetnek hozzá maguk a felhasználók. A rendszer és az adatbázis egyaránt több szintű védelemmel ellátott, így a hanganyagokhoz csak mi, illetve a Régens által felhatalmazott szakemberek látnak rá, utóbbiak kizárólag szervizműveletek céljából, s az elvégzett műveletek szigorú naplózásával. Ez egyébként a legtöbb üzleti felhőszolgáltatásnál (OneDrive, Evernote stb.) így működik, szóval nem kell megijedni a dologtól, a Régens munkatársai sem férhetnek hozzá a felvételeinkhez amikor a kedvük tartja. Ez alól csak az olyan felhőszolgáltatások lehetnek kivételek, amelyeknél végponti (e2e) titkosítást használnak (lásd Tresorit), ami viszont azzal járna, hogy maga a rendszer sem tudná értelmezni, amit feltöltünk, hiszen a kizárólag általunk ismert titkosítási kulcsok birtokában nem lenne képes dekódolni a feltöltés előtt automatikusan titkosított fájlt. Vagyis az Alrite ezen a téren mindent megtesz, amit megtehet, hogy adataink biztonságban legyenek, de a munka se akadozzon. Ráadásul egy olyan cégről beszélünk, amely a közigazgatással kapcsolatos rendszerekben is komoly múlttal rendelkezik, így a biztonság számukra kiemelt tényező.
  • Ha valaki mégis úgy érzi, hogy jobb lenne mindent saját szerveren tárolni, semmi akadálya. A cégek számára megvan a lehetőség, hogy saját – a megrendelőhöz kihelyezett – szerveren, sőt, az API segítségével saját rendszerbe integrálva használják az Alrite funkcióit. Ráadásul így akár az offline (on-premises) használatot is megvalósíthatják.
  • A már említett stream-üzemmód jól jöhet a céges előadások, konferenciák azonnali feliratozására.
  • Kevésbé kapcsolódik beszédfelismeréshez, de cégek szempontjából fontos: van számlázó integráció is.

Mint az a fentiekből is kitűnik, az Alrite nem csak az otthoni felhasználóknak, hanem a cégeknek is kiváló eszköz lehet, ha szükségük van hangfelismerésre, hanganyagok átalakítására, videók vagy akár előadások feliratozására. Sőt, ezekben a COVID-19 mizériával sújtott időkben arra is kitűnő eszköz, hogy a többszereplős, Microsoft Teams és hasonló megoldások segítségével megvalósított videós megbeszélések hanganyagát később pár perc alatt írásos változatban is prezentálhassuk a résztvevőknek, vagy a többi érintettnek.

Jövőkép

Az Alrite már most egy összetett, sokoldalúan használható rendszer, amely a magyar nyelvű szövegfelismerésben – többek között a mesterséges intelligencia egyes területeinek integrálásával – jelenleg verhetetlennek tűnik (bár természetesen mindig jöhetnek új kihívók). A Régensnél folyamatosan dolgoznak a termék fejlesztésén, így hamarosan egy angol nyelvű hangfelvétel szöveggé alakítása sem jelent majd kihívást neki, de érkezik az automatikus címkézés és sok olyan módosítás, amelyeket a felhasználók visszajelzései alapján építenek be az Alrite-ban. Bár a párbeszédek jelölésére alapvetően most is alkalmas a rendszer, a későbbiekben kap majd egy új funkciót, amellyel több beszélő kezelése is lehetővé válik, több hangsáv leiratának összefésülésével.

Összegzésül

Mindent egybevetve a Régens Alrite egy kifejezetten jól sikerült beszédfelismerő rendszer, amely az AI megoldásoknak köszönhetően folyamatosan tanítható, így egyre jobb eredménnyel végezheti a hanganyagok feldolgozását. Az időzített feliratkészítés és a Youtube videók pár mozdulattal történő feldolgozása már csak hab a tortán. A szerver sebességére sem lehet panaszunk, a feltöltés kellemesen gyors, így a több száz megabájt méretű állományok is gyorsan felkerülnek a tárhelyünkre, és a feldolgozásuk is megfelelő ütemben zajlik. Legyen a feladat hangfelvétel szöveggé alakítása vagy videók feliratozása, ezzel a szolgáltatással ez nem jelent problémát.

A mobilos használat lehetősége hatalmas előny. Mi az iPhone-os appot teszteltük, amely minden szempontból tökéletesen működött. Mint említettük, a felület és a funkciók gyakorlatilag megegyeznek a webes verzióval, szóval mindent ugyanúgy elérünk, beleértve a korábbi anyagainkat is. Ennek megfelelően amúgy a felület nem idomul különösebben az iOS saját UI megoldásaihoz, hiszen a webes elemeket emeli át, de ez semmit nem von le a mobilos használhatóságból.

Árazását tekintve sem mondható elrugaszkodottnak, gyakorlatilag olcsóbb, mint számos külföldi konkurense, miközben a magyar nyelvű anyagokkal érthető okokból sokkal ügyesebben bánik mint azok. Többféle csomagból választhatunk, amelyeknél változik a percdíj, illetve a minimálisan rendelhető percek száma éppúgy, mint a kapcsolt szolgáltatások (on-premise, helpdesk elérhetőség stb.).

Nem kell azonban zsákbamacskát vennünk, van ugyanis ingyenes (Starter) próbalehetőség is. Ezzel összesen egy órányi hanganyagot dolgozhatunk fel és hét napig áll rendelkezésünkre ez az egy órás keret. Arra, hogy kipróbáljuk a főbb funkciókat, alapvetően elegendő. Mindenesetre aki gyakran szembesül azzal a kihívással, hogy hosszabb hanganyagokat kell szerkeszthető szöveggé varázsolnia, vagy szeretne videóihoz (vagy mások Youtube videóihoz) pontosan időzített feliratot is készíteni, annak az Alrite-ot feltétlenül meg kell ismernie a gyakorlatban is.

Ne maradjon le erről sem!

Mint a legtöbb weboldal, mi is használunk sütiket az oldalon. Elfogadom Adatkezelési tájékoztató