Optické rozpoznávanie znakov (OCR) sa vzťahuje na softvér, ktorý vytvára digitálnu verziu vytlačeného, písaného alebo ručne písaného dokumentu, ktorý môžu počítače čítať bez nutnosti manuálneho písania textu alebo zadávania textu. OCR sa vo všeobecnosti používa na skenovaných dokumentoch vo formáte PDF , ale môže tiež vytvoriť verziu textu, ktorý je čitateľný počítačom, v rámci súboru s obrázkami.
Čo je OCR?
OCR, tiež označované ako rozpoznávanie textu, je softvérová technológia, ktorá transformuje znaky, ako sú čísla, písmená a interpunkčné znamienka (tiež nazývané glyfy) z vytlačených alebo písaných dokumentov do elektronickej formy ľahšie rozpoznateľnejší a čítanej počítačmi a inými softvérovými programami. Niektoré programy OCR to robia, keď sa dokument skenuje alebo fotografuje pomocou digitálneho fotoaparátu a iní môžu použiť tento proces na dokumenty, ktoré boli predtým skenované alebo fotografované bez OCR. OCR umožňuje používateľom vyhľadávať v dokumentoch PDF, upravovať text a preformátovať dokumenty.
Na čo sa OCR používa?
Pre rýchle a každodenné potreby skenovania nemusí byť OCR veľa. Ak robíte veľké množstvo skenovania, budete môcť vyhľadávať vo formáte PDF, aby ste našli presnú, ktorú potrebujete, ušetriť dosť času a urobiť funkčnosť OCR vo vašom programe skenera dôležitejšia. Tu sú niektoré ďalšie veci, ktoré OCR pomáha:
- Automatizované spracovanie údajov a zadávanie údajov (Príklad: Systém sledovania uchádzačov o zamestnanie pre životopisy)
- Skenovanie kníh je možné prehľadávať
- Prevod ručne napísaných skenov na text čitateľný počítačom
- Uľahčiť používanie dokumentov čitateľskými programami, ktoré pomáhajú používateľom so zrakovým postihnutím
- Uchovávanie historických dokumentov a novín, a zároveň ich vyhľadávanie
- Výber a prenos údajov do účtovných programov (Príklad: Príjmy a faktúry)
- Indexovanie dokumentov pre vyhľadávače
- Rozpoznávanie poznávacích značiek vodiča pomocou rýchlostnej kamery a softvéru pre fotoaparáty s červeným svetlom
- Syntetizátory reči pre ľudí, ktorí nemôžu hovoriť - teoretický fyzik Stephen Hawking je možno najznámejší používateľ programu syntetizátorov reči
Prečo používať OCR?
Prečo nie len fotografovať? Pretože nebudete môcť nič upravovať alebo vyhľadávať v texte, pretože by to bol len obrázok. Skenovanie dokumentu a spustenie OCR softvéru môže tento súbor zmeniť na niečo, čo môžete editovať a byť schopný vyhľadávať.
História OCR
Zatiaľ čo najskoršie používanie dátumov na rozpoznávanie textu do roku 1914, rozsiahly vývoj a používanie technológií súvisiacich s OCR sa začali vážne v 50-tych rokoch minulého storočia, konkrétne pri vytváraní veľmi zjednodušených písiem, ktoré sa dali ľahšie prevádzať na digitálne čitateľný text. Prvé z týchto zjednodušených písiem vytvoril David Shepard a všeobecne známy ako OCR-7B. OCR-7B sa dnes používa vo finančnom priemysle pre štandardné písmo používané na kreditných a debetných kartách. V šesťdesiatych rokoch začali poštové služby vo viacerých krajinách používať technológiu OCR na výrazné zrýchlenie triedenia pošty vrátane Spojených štátov, Veľkej Británie, Kanady a Nemecka. OCR je stále základnou technológiou používanou na triedenie pošty pre poštové služby po celom svete. V roku 2000 boli kľúčové znalosti o limitoch a schopnostiach technológie OCR použité na vývoj programov CAPTCHA používaných na zastavenie robotov a spamerov.
Počas desaťročí sa OCR stala presnejšou a sofistikovanejšou vďaka pokroku v súvisiacich oblastiach technológie, ako je umelá inteligencia , strojové učenie a počítačová vízia. V súčasnosti softvér OCR používa rozpoznávanie vzorov, detekciu funkcií a vyhľadávanie textov, aby dokázali dokumenty rýchlejšie a presnejšie než kedykoľvek predtým.