Abstract:
Технология оптического распознавания символов (OCR) произвела
революцию в процессе оцифровки печатных документов и извлечения из них ценной информации. В этом исследовании мы оцениваем эффективность технологии Tesseract OCR в
распознавании текста в PDF-файлах.