Míg korábban inkább csak a professzionális felhasználóknál volt jellemző, ma már egyre népszerűbbek a fel- és leiratozó szolgáltatások a hétköznapi felhasználók köreiben is. Immár egyre többen leiratozzák a videós meetingek hanganyagát, a telefonos interjúkat, s egyre több felhasználó diktálja le gondolatait az okostelefonnak, hogy aztán a felvételből írott, szerkeszthető szöveget kapjon a végén a jegyzetei között. A legtöbb ilyen megoldás – például a hazai fejlesztésű és a leiratok és feliratok készítésében egyaránt kiemelkedő teljesítményt nyújtó Alrite – azonban online működik, vagyis a hangfelvételeket egy távoli szerver alakítja át nekünk szerkeszthető szöveggé. Ez pedig cégek esetében, vagy akár ügyvédeknél és más, kényes tartalmakkal dolgozó vállalkozásoknál rizikós lehet, még akkor is, ha mi például nem feltételezzük, hogy az Alrite, és a hasonlóan komoly megoldások esetében visszaélnének azzal, hogy a hanganyagok átmenetileg a szervereiken landolnak. Mégis, bizonyára sokakban felmerül már a gondolat, hogy miként oldható megy egy hangfelvétel leiratozása a számítógépen offline, vagyis anélkül, hogy bármilyen adat elhagyná a PC-t vagy a Macet. Ma erre mutatunk egy cross-platform megoldást, ami elsőre kicsit fapadosnak tűnhet, de nagyon hatékony, ráadásul teljesen ingyenes.
OpenAI Whisper: hangfelvétel leiratozás offline a számítógépen, akár ingyen is
Az OpenAI Whisper egy nyílt forráskódú, automatikus beszédfelismerő rendszer, amely kiválóan alkalmas videók, podcastok, interjúk vagy bármilyen hangfájl gyors és pontos leiratozására, több nyelven. Ez a szolgáltatás számtalan egyéb termék, szoftver esetében dolgozik a háttérben, de amúgy teljesen ingyen és ami a legjobb, akár offline is használható önmagában. Természetesen erre is vonatkozik a kitétel, ami minden offline működő GenAI megoldásra (képgenerálók, szöveggenerálók stb.): ha nem bivalyerős távoli szervereken, hanem a saját gépünkön szeretnénk ezeket futtatni, ahhoz meglehetősen erős hardver szükséges. Mondjuk van azért jó hírünk is: a Whisper éppenséggel kevesebb RAM és gyengébb CPU esetében is elfut, bár ez esetben jelentős türelem kell hozzá, amíg feldolgozza a hanganyagokat. A türelmünkön kívül pedig nem árt hozzá még néhány dolog, hogy egyáltalán működésre bírjuk. Lássuk, mi kell ahhoz, hogy megoldható legyen a Whisper használata offline, közvetlenül a gépünkön.
Van egyszerűbb megoldás is, csak nem ingyen
Mielőtt belevágunk, azért felhívjuk a figyelmet, hogy van néhány alternatív, egyszerűbb megoldás is arra, hogy a Whispert használjuk. Ha macOS-en dolgozunk, akkor ott a MacWhisper, amely hihetetlenül kényelmessé teszi a Whisper használatát. Nem kell parancssorban szenvednünk vele, mindent elintézhetünk egy csili-vili felületen. Ráadásul akár össze is köthetjük már AI szolgáltatásokkal (Ollama, ChatGPT, Gemini stb.), hogy a feldolgozott anyagok szövegeivel tovább dolgozzunk a program felületén belül. Sajnos azonban ezt nem kapjuk ingyen, bár olcsón megvehetjük a MacWhisper Pro változatát és az Ollama bevetésével még az extra szövegfeldolgozási funkciókat is offline, ingyen használhatjuk a Macen. Emellett maga a Whisper tesztelhető a HuggingFace oldalán is, igaz, ez esetben már online tudjuk csak használni, szóval ennyi erővel használhatjuk helyette az Alrite-ot vagy például a Perplexity-t is. Utóbbi is tud leiratozni hangfájlokat, bár csak akkor, ha előfizetünk rá, ráadásul elég válogatós a hangfájlok típusát illetően.
Whisper offline a gépünkön: Windowson és macOS-en
Az alábbiakban lépésről lépésre bemutatjuk, hogyan telepíthető és használható a Whisper Windows és macOS rendszereken, igaz, nem túl elegáns módon, mert a parancssorban kell vele ügyködnünk, de cserébe teljesen ingyen megkapjuk. Ráadásul nem olyan bonyolult a parancssori munka, ha már egyszer beüzemeltük. Mondjuk utóbbi viszont nem egyszerű. Először is tisztázzuk, mi kell hozzá:
- A Whisper parancssori változata: ez lesz a dolgok lelke, szóval nem mondhatunk le róla.
- Egy telepített ffmpeg: ez a videó- és hangfájlok feldolgozását segíti majd a műveletek során, szóval ez is létfontosságú, bár külön amúgy nem használjuk majd.
- Python 3.10 – vagy újabb verzió – és Git: e fejlesztőkörnyezet telepítése szintén létfontosságú. A Whisper a pip csomagkezelőn keresztül érhető el és a Gittel tölthető le, ezért fontos, hogy egy működő Python-környezet legyen a gépen.
- Végül macOS alatt a Homebrew, hogy egyszerűbb legyen a hozzávalók letöltése és telepítése.
Semmi pánik! Nem olyan bonyolult az egész procedúra, mint amilyennek hangzik, de az kétségtelen, hogy kicsit több lépés, mint amikor egy szimpla telepítő-varázslóban végignyomogatjuk a Next gombokat.
A Python környezet telepítése
Első körben a Pythont kell telepítenünk. Ezt Windowson a hagyományos módon, letöltéssel és a telepítő futtatásával tehetjük meg. Letölteni innen tudjuk, ami pedig a telepítést illeti, fontos, hogy a telepítés kezdetekor a Telepítő program felületén jelöljük be az Add Python to PATH opciót.
Aki macOS-en kezd bele, annak előbb javasolt a Homebrew csomagkezelő telepítése. Ehhez indítsuk el a Terminal alkalmazást, majd adjuk ki benne az alábbi utasítást:
/bin/bash -c „$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)”
Ha lefutott, folytassuk a következő paranccsal: brew install python. Utóbbi hatására a Brew feltelepíti a gépünkre a Python környezetet.
Ha valakinek a gépén eleve telepítve van a Pyhton, annak csak annyit kell tennie, hogy frissíti azt az aktuális verzióra, vagy minimum a 3.10-re.
Az ffmpeg telepítése
Itt is két eltérő módon kell telepítenünk. Windowson alatt innen tölthető le az ffmpeg telepítője, de telepíthetjük Parancssorból a winget segítségével is (erről itt írtunk anno). A winget esetében így: winget install ffmpeg.
A macOS-t használók dolga sem lesz nehezebb, ott a Brew-t kell bevetni erre is: brew install ffmpeg. Lényeg, hogy így vagy úgy, de kerüljön a gépünkre az ffmpeg alkalmazás, hogy dolgozhasson vele majd a Whisper.
Git telepítése
Ezután érdemes telepíteni a Gitet is, amely egy nyílt forráskódú verziókezelő rendszer, amelyet elsősorban a forráskódok változásainak nyomon követésére használnak a szoftverfejlesztésben. Ezt Windowson telepíthetjük a hagyományos módon is, ehhez letölthetjük a telepítőt innen. Alternatívaként ezt is feltehetjük a gépünkre a Winget segítségével, ha kiadjuk Parancssorban az alábbi utasítást: winget install --id Git.Git -e --source winget. Ezzel szemben macOS alatt itt is a Brew a megoldás, nevezetesen ezt kell beírni a Terminalba: brew install git, majd elindítani a telepítést.
Ha a telepítés után azonnal nem működne a Git (ellenőrizhető, hogy sikeres volt-e a telepítés ezzel az utasítással: git --version), akkor zárjuk be a Parancssor ablakát és nyissuk meg újra. Ekkor már elvileg rálát a rendszer a telepített Gitre.
Whisper telepítése
Elértünk a lényeghez, vagyis a Whisper telepítéséhez, amellyel ténylegesen megoldható lesz egy-egy hangfelvétel leiratozása a számítógépen offline. Mint fentebb már említettük, ezt a Git segítségével tehetjük meg, ezért is kellett telepíteni a Python környezetet. A művelet ebben az esetben egyezik a két rendszeren. Első lépésként érdemes frissíteni a pip-et – ez a Python csomagkezelője – Winowson a python.exe -m pip install --upgrade pip macOS-en pedig a pip3 install --upgrade pip utasítással.
Ha ez is megvan, végre tényleg jöhet a Whisper telepítése. Ehhez a Terminalban / Parancssorban kell kiadnunk először az alábbi utasítást: pip3 install git+https://github.com/openai/whisper.git, majd ha az hibátlanul lefutott, akkor az alábbit: pip install whisper. Szinte hihetetlen, de ha nem futottunk hibába, akkor bizony ott van a gépünkön a Whisper. Már csak használatba kell vennünk.
A Whisper használata offline a parancssorban
Ahhoz, hogy a Whisper segítségével leiratozzunk egy hanganyagot, vagy feliratot készítsünk egy videó hangsávja alapján, le kell még töltenünk az ehhez szükséges modellt is. Szerencsére ezt maga a Whisper is elintézi használat közben. A kiválasztott modellt az első használatnál tölti le, utána már a letöltöttet tudja használni. Modellből rögtön van öt jelenleg: tiny, base, small, medium, large. Balról jobbra nézve ezek méretben és tudásban egyaránt egyre nagyobbak. A kisebb modellek elsősorban angolul használhatók érdemben. A small, medium és large változatok viszont elég jól dolgoznak más nyelveken is. Azt szintén nekünk kell megadni, hogy melyik nyelvi változatot kívánjuk használni. A teljességhez: minél nagyobb a modell, annál több RAM memóriára lesz szükségünk a használatához és annál lassabb lesz a feldolgozás is. Cserébe viszont a végeredmény sokkal jobb minőségű lesz, pontosabban adja vissza a felvételen elhangzó szavakat.
Mindehhez pár paramétert kell csak megadnunk a Whispernek a parancssorban. Például ha egy hanganyagot a közepes méretű modellel szeretnénk feldolgoztatni magyarul, akkor az alábbit: whisper felvetel.mp3 --model medium --language Hungarian.
Itt a --model paraméter után van megadva a használni kívánt modell neve, a --language paraméter után pedig a hanganyag nyelvére vonatkozó információ. A hangfájlt magát közvetlenül a whisper utasítás után adtuk meg. Formátuma lehet szinte bármilyen népszer hangfájl típus: mp3, wav, m4a stb.
A fenti utasítás hatására a feldolgozott hanganyag leiratát egyszerűen a parancssorban írja ki a program. Ha ezt inkább egy fájlba szeretnénk kiíratni, akkor a parancsot ki kell egészítenünk még az --output_dir paraméterrel is. Ha például azt szeretnénk, hogy a leirat a rendszer Downloads / Letöltések mappájában landoljon, akkor Windowson a következő utasításra lesz szükség:
whisper felvetel.mp3 --model large --language Hungarian --output_dir C:\Users\felhasznalonev\Downloads.
Ezzel szemben macOS-en erre:
whisper felvetel.mp3 --model large --language Hungarian --output_dir /Users/felhasznalonev/Downloads.
Különbség a parancsok végén van csak, hiszen a két rendszer alapértelmezett Letöltések mappájára másként kell hivatkozni (a “felhasznalonev” részt értelemszerűen át kell írni a rendszerben használt tényleges felhasználónévre). Mindegyik parancs változatra vonatkozik, hogy a hangfájl esetében nem csak a nevét, hanem a teljes elérési útját meg kell adni, illetve az --output_dir után is megadhatunk teljes elérési úttal tetszőleges mappát, amelyben létrejöhetnek a kimenetek. Utóbbiak egyébként több formátumban készülnek el: txt (egyszerű szövegként), srt és vtt (felirat fájlok időzítéssel, videókhoz), illetve json változatban egyaránt megkapjuk a feldolgozott szöveget. Ha nincs szükségünk mindegyikre, akkor az utasítást egészítsük ki a --output_format paraméterrel, például így: whisper felvetel.mp3 --model large --language Hungarian --output_dir /Users/felhasznalonev/Downloads --output_format srt.
Összegzésül: hangfelvétel leiratozása a számítógépen offline, ingyen
Mindent egybevetve a Whisper használata – ha egyszer túljutunk a telepítési procedúrán – nagyon egyszerűen megoldható Terminalban / Parancssorban. Ráadásul nagyon hatékonyan lehet vele hanganyagokból, hangsávokból leiratot vagy feliratot létrehozni. Azt mondjuk nem állítjuk, hogy magyar nyelven tökéletesen fel tudja venni a versenyt az Alrite-tal, de az esetek többségében kellően hatékony.
Előnye, hogy a hangfelvétel leiratozása a számítógépen offline történik. Legfőbb hátránya pedig épp ebből adódik: a sebessége erősen függ a használt modelltől és a gépünk teljesítményétől. Szóval ha sietős a dolgunk, jó eséllyel nem lesz tökéletes választás. De ha sokkal többet nyom a latban, hogy teljesen privát módon tudjuk feldolgozni a felvételeket, érdemes lehet kivárni az offline feldolgozást.









