Az optikai karakterfelismerés (optical character recognition, OCR) a modern alakfelismerés (pattern recognition) legrégebben kutatott problémája, az elsô szabadalmakat 1929-ben ill 1933-ban adták ki. Hat darab, átlagban 2 hetes blokkban fogjuk végigvenni az anyagot:
1. Áttekintés: Mitôl optikai az optikai karakterfelismerés? Az OCR alapvetô fajtái: dinamikus vagy kép-alapú, nyomtatott vagy kézírásos. Szöveg és ábra-típusok, írások, betûtípusok. Zajszûrés, binarizálás, a dokumentum felbontása. Egy konkrét feladat: matematikakönyvbôl LaTeX kód. Mit lehet automatizálni, és mit nem?
2. Az alacsonyszintû képfeldolgozás alapjai. Zajszûrés, határkeresés, szinredukció, binarizálás, csontvázépítés, vektorizáció, lánckódolás. Poligonok, kritikus pontok. Iránykeresés, dôlésbecslés, zónákra bontás.
3. A szövegzóna elemzése: sorok, iniciálé. A latin alapú ábécék struktúrája. Alapvetô font-osztályok. A bináris és az általános osztályozási feladat. Standard adatbázisok.
4. A jegyszámítás (feature extraction). A legfontosabb jegyosztályok, geometriai momentumok, Zernike momentumok. Szegmentálás és osztályozás mint egymást követô feladatok, típushibák. Adattömörítés, a legegyszerûbb nyelvmodellek.
5. Az osztályozók fôbb típusai. Hasonlósági (nearest neighbor), ideghálózati (neural network), lineáris, határszélesítô (max margin), maxent, és egyéb osztályozási módszerek.
6. A szegmentálási, osztályozási, és nyelvmodellezési problémák közös megoldása rejtett Markov modellekkel. Szavazás, tényezôk integrálása, modellek integrálása.
A kurzus kifejezetten céljának tekinti a nyílt forráskódú OCR javítását, tehát elsôsorban olyanoknak ajánljuk akik unix/linux környezetben már tudnak és szeretnek programozni C/C++ illetve python nyelven. A jegy 75%-ban projektmunkán, és 25%-ban szóbeli vizsgaeredményen alapul.
Hely, idôpont, Neptun-kód még nincs.
Kódbázisok OCRopus az egész faladatra, Tesseract az izolált karakterfelismerésre.
Irodalom itt