Legyen szó egy lefotózott dokumentumról vagy egy weboldalon talált, szövegeket tartalmazó képfájlról, ha szükségünk lenne egy képen látható szöveg szerkeszthető változatára, korábban általában két lehetőségünk volt: szépen újraírtuk, vagy szereztünk valamilyen OCR szövegfelismerő szoftvert és azzal alakítottuk át a képen látható szöveget szerkeszthetővé. Mára azonban a legtöbb rendszer kínál erre a célra kényelmes és ingyenes megoldást. Így például a Windows 11 saját Képmetsző alkalmazása, amely alapvetően képernyőképek készítésére hivatott, gond nélkül engedi a szövegek Vágólapra másolását egy képről. Ha valaki Windows 10 rendszert használ, akkor rendelkezésére áll a Microsoft saját PowerToys csomagja, s benne a képekről szöveget másoló funkció (ez amúgy Windows 11 alatt is működik). Emellett macOS és iOS alatt sem gond már szövegeket lemásolni képekről, hiszen a Live Text funkció már több rendszerverzió óta alapból rendelkezésünkre áll. Azt viszont talán kevesebben tudják, hogy szövegek kinyerése képekről ChatGPT-vel és Google Barddal is megoldható. Ez talán még egyszerűbb, mint OCR szoftvereket telepíteni.
Szövegek kinyerése képekről ChatGPT-vel
A generatív mesterséges intelligencia számtalan feladat elvégzésekor lehet segítség. A képek konvertálása és a szövegek kinyerése képekről persze nem feltétlenül tartozik az kifejezetten MI-ra bízandó teendők közé, de a ChatGPT még erre is képes. Pontosabban a ChatGPT Plus. Merthogy az ingyenes változatnál sajnos ez a lehetőség nem áll a rendelkezésünkre.
Ha azonban amúgy is ChatGPT Plus előfizetők vagyunk és napi szinten használjuk az MI-alapú csevegőt, akkor már kifejezetten praktikus lehet, hogy ezt is rábízhatjuk. Mivel a ChatGPT Plus esetében a GPT-4 felület már alkalmas Python kódok generálására és futtatására, így számos extra feladat, köztük például kép- vagy hangformátumok közötti konvertálás elvégzésére, alkalmassá vált. Esetünkben pedig szintén a GPT-4 nyelvi modell kiválasztása lesz a megoldás, lévén azt az OpenAI temérdek extra funkcióval okosította fel az elmúlt hónapokban: többek között feltölthetünk képeket tartalmi elemzésre. Ha pedig tudja azokat elemezni, onnan már csak egy ugrás, hogy integrált OCR funkcióval felismerje a képen látható szövegeket, átalakítsa azokat szerkeszthetővé, s válaszként tálalja azokat számunkra. Mit kell tennünk ehhez?
- Válasszuk a ChatGPT felületen a GPT-4 opciót.
- Töltsük fel a képet a gépkapocs ikonra kattintva.
- Kérjük meg a ChatGPT-t, hogy nyerje ki nekünk a szövegeket a képről, például a “Másold ki a szövegeket a képről” utasítással.
Végeredményként – egy kis gondolkodás után – a ChatGPT felismeri a szövegeket a képen, majd válaszként megkapjuk azokat, így már gond nélkül Vágólapra másolhatók, hogy beillesszük azokat szövegszerkesztőkbe vagy ahol épp szükségünk van rájuk.
Szövegek kimásolása képekről Goggle Barddal
A ChatGPT Plus előfizetés persze nem mindenkinek éri meg feltétlenül, de nem kell elkeseredni, ugyanis a Google Bard is gond nélkül megoldja a feladatot, teljesen ingyen.
Ennél is feltölthetjük a képet, majd a “Másold ki a szövegeket a képről” utasítással megkapjuk a képen látható összes szöveget a válaszban. Ezután azt már gond nélkül Vágólapra másolhatjuk, de amúgy arra is van lehetőségünk, hogy fordítást vagy épp módosítást kérjünk a kimásolt szöveghez.







