PERANCANGAN PEMINDAI DOKUMEN CETAK PORTABEL MENGGUNAKAN TESSERACT DAN OPENCV
DOI:
https://doi.org/10.25124/tektrika.v7i1.4634Abstract
Dokumen cetak masih menjadi pilihan beberapa industri untuk menyimpan data-data penting dalam bentuk faktur, struk, dan dokumen cetak lainnya. Hal ini menimbulkan masalah ketika diperlukan bentuk data digital dari dokumen cetak tersebut. Oleh karena itu, dibutuhkan suatu sistem yang dapat mengkonversi citra dokumen cetak menjadi string agar data tidak perlu dimasukkan ke komputer secara manual. Saat ini, teknologi yang mampu mengidentifikasi huruf pada citra adalah OCR engine yang didalamnya sudah diprogram untuk melakukan segmentasi, ekstraksi ciri, klasifikasi, training, dan recognition. Salah satu OCR engine yang memiliki akurasi yang paling tinggi (96,38%) dengan lama pemrosesan paling cepat (4,60 detik) adalah Tesseract. Namun, keakurasian Tesseract bergantung kepada kualitas citra dan noise sehingga diperlukan pengolahan citra tambahan. Oleh karena itu, pada penelitian ini dirancang suatu alat pemindai dokumen cetak menggunakan OCR Tesseract dengan tahapan pengolahan citra: grayscaling, unsharp masking, Otsu thresholding, dan dilation dengan library OpenCV. Dari hasil pengujian terhadap jenis font Arial, Calibri, Times New Roman, Dot Matrix, dan Fake Receipt ukuran 16, diperoleh persentase kesalahan sebesar 2,58% untuk mengenali kata, 3,5% untuk mengenali kata dalam suatu kalimat, 10,5% untuk mengenali kata dalam paragraf, dan 9,5% untuk mengenali kata dalam dokumen struk.