Čo je optické rozpoznávanie znakov (OCR)?

Optické rozpoznávanie znakov (OCR) sa vzťahuje na softvér, ktorý vytvára digitálnu verziu vytlačeného, ​​písaného alebo ručne písaného dokumentu, ktorý môžu počítače čítať bez nutnosti manuálneho písania textu alebo zadávania textu. OCR sa vo všeobecnosti používa na skenovaných dokumentoch vo formáte PDF , ale môže tiež vytvoriť verziu textu, ktorý je čitateľný počítačom, v rámci súboru s obrázkami.

Čo je OCR?

OCR, tiež označované ako rozpoznávanie textu, je softvérová technológia, ktorá transformuje znaky, ako sú čísla, písmená a interpunkčné znamienka (tiež nazývané glyfy) z vytlačených alebo písaných dokumentov do elektronickej formy ľahšie rozpoznateľnejší a čítanej počítačmi a inými softvérovými programami. Niektoré programy OCR to robia, keď sa dokument skenuje alebo fotografuje pomocou digitálneho fotoaparátu a iní môžu použiť tento proces na dokumenty, ktoré boli predtým skenované alebo fotografované bez OCR. OCR umožňuje používateľom vyhľadávať v dokumentoch PDF, upravovať text a preformátovať dokumenty.

Na čo sa OCR používa?

Pre rýchle a každodenné potreby skenovania nemusí byť OCR veľa. Ak robíte veľké množstvo skenovania, budete môcť vyhľadávať vo formáte PDF, aby ste našli presnú, ktorú potrebujete, ušetriť dosť času a urobiť funkčnosť OCR vo vašom programe skenera dôležitejšia. Tu sú niektoré ďalšie veci, ktoré OCR pomáha:

Prečo používať OCR?

Prečo nie len fotografovať? Pretože nebudete môcť nič upravovať alebo vyhľadávať v texte, pretože by to bol len obrázok. Skenovanie dokumentu a spustenie OCR softvéru môže tento súbor zmeniť na niečo, čo môžete editovať a byť schopný vyhľadávať.

História OCR

Zatiaľ čo najskoršie používanie dátumov na rozpoznávanie textu do roku 1914, rozsiahly vývoj a používanie technológií súvisiacich s OCR sa začali vážne v 50-tych rokoch minulého storočia, konkrétne pri vytváraní veľmi zjednodušených písiem, ktoré sa dali ľahšie prevádzať na digitálne čitateľný text. Prvé z týchto zjednodušených písiem vytvoril David Shepard a všeobecne známy ako OCR-7B. OCR-7B sa dnes používa vo finančnom priemysle pre štandardné písmo používané na kreditných a debetných kartách. V šesťdesiatych rokoch začali poštové služby vo viacerých krajinách používať technológiu OCR na výrazné zrýchlenie triedenia pošty vrátane Spojených štátov, Veľkej Británie, Kanady a Nemecka. OCR je stále základnou technológiou používanou na triedenie pošty pre poštové služby po celom svete. V roku 2000 boli kľúčové znalosti o limitoch a schopnostiach technológie OCR použité na vývoj programov CAPTCHA používaných na zastavenie robotov a spamerov.

Počas desaťročí sa OCR stala presnejšou a sofistikovanejšou vďaka pokroku v súvisiacich oblastiach technológie, ako je umelá inteligencia , strojové učenie a počítačová vízia. V súčasnosti softvér OCR používa rozpoznávanie vzorov, detekciu funkcií a vyhľadávanie textov, aby dokázali dokumenty rýchlejšie a presnejšie než kedykoľvek predtým.