Szövegek kinyerése képekről ChatGPT-vel és Google Barddal

Legyen szó egy lefotózott dokumentumról vagy egy weboldalon talált, szövegeket tartalmazó képfájlról, ha szükségünk lenne egy képen látható szöveg szerkeszthető változatára, korábban általában két lehetőségünk volt: szépen újraírtuk, vagy szereztünk valamilyen OCR szövegfelismerő szoftvert és azzal alakítottuk át a képen látható szöveget szerkeszthetővé. Mára azonban a legtöbb rendszer kínál erre a célra kényelmes és ingyenes megoldást. Így például a Windows 11 saját Képmetsző alkalmazása, amely alapvetően képernyőképek készítésére hivatott, gond nélkül engedi a szövegek Vágólapra másolását egy képről. Ha valaki Windows 10 rendszert használ, akkor rendelkezésére áll a Microsoft saját PowerToys csomagja, s benne a képekről szöveget másoló funkció (ez amúgy Windows 11 alatt is működik). Emellett macOS és iOS alatt sem gond már szövegeket lemásolni képekről, hiszen a Live Text funkció már több rendszerverzió óta alapból rendelkezésünkre áll. Azt viszont talán kevesebben tudják, hogy szövegek kinyerése képekről ChatGPT-vel és Google Barddal is megoldható. Ez talán még egyszerűbb, mint OCR szoftvereket telepíteni.

HIRDETÉS

Szövegek kinyerése képekről ChatGPT-vel

A generatív mesterséges intelligencia számtalan feladat elvégzésekor lehet segítség. A képek konvertálása és a szövegek kinyerése képekről persze nem feltétlenül tartozik az kifejezetten MI-ra bízandó teendők közé, de a ChatGPT még erre is képes. Pontosabban a ChatGPT Plus. Merthogy az ingyenes változatnál sajnos ez a lehetőség nem áll a rendelkezésünkre.

Ha azonban amúgy is ChatGPT Plus előfizetők vagyunk és napi szinten használjuk az MI-alapú csevegőt, akkor már kifejezetten praktikus lehet, hogy ezt is rábízhatjuk. Mivel a ChatGPT Plus esetében a GPT-4 felület már alkalmas Python kódok generálására és futtatására, így számos extra feladat, köztük például kép- vagy hangformátumok közötti konvertálás elvégzésére, alkalmassá vált. Esetünkben pedig szintén a GPT-4 nyelvi modell kiválasztása lesz a megoldás, lévén azt az OpenAI temérdek extra funkcióval okosította fel az elmúlt hónapokban: többek között feltölthetünk képeket tartalmi elemzésre. Ha pedig tudja azokat elemezni, onnan már csak egy ugrás, hogy integrált OCR funkcióval felismerje a képen látható szövegeket, átalakítsa azokat szerkeszthetővé, s válaszként tálalja azokat számunkra. Mit kell tennünk ehhez?

Kapcsolódó cikkek

Codex Pets használata: cuki apróságok programozási segédként

Képek felskálázása egyszerűen, akár csoportosan is, ingyen

HIRDETÉS

Válasszuk a ChatGPT felületen a GPT-4 opciót.
Töltsük fel a képet a gépkapocs ikonra kattintva.
Kérjük meg a ChatGPT-t, hogy nyerje ki nekünk a szövegeket a képről, például a “Másold ki a szövegeket a képről” utasítással.

Végeredményként – egy kis gondolkodás után – a ChatGPT felismeri a szövegeket a képen, majd válaszként megkapjuk azokat, így már gond nélkül Vágólapra másolhatók, hogy beillesszük azokat szövegszerkesztőkbe vagy ahol épp szükségünk van rájuk.

Szövegek kimásolása képekről Goggle Barddal

A ChatGPT Plus előfizetés persze nem mindenkinek éri meg feltétlenül, de nem kell elkeseredni, ugyanis a Google Bard is gond nélkül megoldja a feladatot, teljesen ingyen.

Ennél is feltölthetjük a képet, majd a “Másold ki a szövegeket a képről” utasítással megkapjuk a képen látható összes szöveget a válaszban. Ezután azt már gond nélkül Vágólapra másolhatjuk, de amúgy arra is van lehetőségünk, hogy fordítást vagy épp módosítást kérjünk a kimásolt szöveghez.

Szövegek kinyerése képekről ChatGPT-vel és Google Barddal

Codex Pets használata: cuki apróságok programozási segédként

Képek felskálázása egyszerűen, akár csoportosan is, ingyen

Tetszik a cikk? Segíts, hogy a Techwok továbbra is működhessen

Nákovics László

Kapcsolódó cikkek

Codex Pets használata: cuki apróságok programozási segédként

Képek felskálázása egyszerűen, akár csoportosan is, ingyen

Antivirus AI teszt: tökéletes antivírus Androidra, AI alapokon

Logoist 6 teszt: gyors, sokoldalú vektorgrafikus képszerkesztő, AI képgenerálással

Cognory: a felturbózott gondolattérkép készítő, AI eszközökkel is

Fontos mappák kitűzése a Start menübe, a Főkapcsoló gomb mellé

Heti TOP: döbbenetes okosóra szuper áron, veszélyes levelek felismerése, digitális adatvédelem

Melyek a legjobb e-learning készítők jelenleg? Megnéztünk többet is!

Proton Pass tipp: biometrikus feloldás a Chrome böngészőben

Xiaomi Sound Play teszt: Bluetooth hangszóró, amit vinnünk kell nyaralni

Trójaiak és adathalász levelek: így ismerhetjük fel veszélyes e-maileket

Digitális szuverenitás, avagy adatvédelmi turbó: ezekre érdemes cserélni az amerikai szolgáltatásokat

Impresszum

Aloldalak

További témák