IMPLEMENTATION OF TESSERACT OCR IN PESANTREN BOOKS USING IMAGE PROCESSING AND SPELL CORRECTION AT PPSS NURUL HUDA

Rohman, Abdul (2023) IMPLEMENTATION OF TESSERACT OCR IN PESANTREN BOOKS USING IMAGE PROCESSING AND SPELL CORRECTION AT PPSS NURUL HUDA. Diploma thesis, Jurusan Teknologi Informasi.

[img] Text
COVER.pdf
Restricted to Registered users only

Download (13MB) | Request a copy
[img] Text
BAB I.pdf
Restricted to Registered users only

Download (4MB) | Request a copy
[img] Text
BAB II.pdf
Restricted to Registered users only

Download (4MB) | Request a copy
[img] Text
BAB III.pdf
Restricted to Registered users only

Download (4MB) | Request a copy
[img] Text
BAB IV.pdf
Restricted to Registered users only

Download (4MB) | Request a copy
[img] Text
BAB V.pdf
Restricted to Registered users only

Download (4MB) | Request a copy
[img] Text
BAB VI.pdf
Restricted to Registered users only

Download (4MB) | Request a copy
[img] Text
BAB VII.pdf
Restricted to Registered users only

Download (4MB) | Request a copy
[img] Text
DAFTAR PUSTAKA.pdf
Restricted to Registered users only

Download (4MB) | Request a copy
[img] Text
LAMPIRAN.pdf
Restricted to Registered users only

Download (4MB) | Request a copy

Abstract

Penelitian ini mengatasi masalah digitalisasi buku Pesantren, yang berisi konten berbahasa Arab yang kompleks, untuk melestarikan pendidikan Islam tradisional dan membuatnya dapat diakses di era digital. Dari segi teknis pelaksanaannya, tujuannya adalah mengimplementasikan Tesseract OCR pada buku Pesantren dan memastikan dapat mengenali bahasa Arab pada buku Pesantren secara akurat, serta dampak pra-pemrosesan dan pasca-pemrosesan. Yang kedua adalah menentukan bagaimana teknik pra-pemrosesan dan pasca-pemrosesan mempengaruhi akurasi OCR. Untuk tujuan ketiga adalah menilai dan merekomendasikan perbaikan akurasi pengenalan Tesseract OCR untuk buku Pesantren. Penelitian ini memerlukan pengumpulan beragam kumpulan buku Pesantren yang mewakili berbagai gaya, font, dan tata letak yang umum ditemukan untuk pengumpulan data. Implementasi teknisnya memerlukan penggabungan Tesseract OCR ke dalam sistem dan mengkonfigurasinya agar dapat mengenali aksara Arab, memastikan kompatibilitas dengan beragam konten buku Pesantren. Mereka juga diterapkan pada halaman buku Pesantren untuk teknik pra-pemrosesan seperti binarisasi dan penghilangan noise. Selain itu, pasca-pemrosesan mencakup penerapan modul koreksi ejaan. Modul ini memperbaiki kesalahan OCR dan meningkatkan keakuratan dan keterbacaan teks yang diekstraksi. Studi ini menggunakan kesamaan teks dan WER untuk mengukur dampak teknik pra-pemrosesan dan pasca-pemrosesan terhadap hasil OCR. Data yang dikumpulkan pada tahap evaluasi dianalisis untuk menyimpulkan kinerja sistem dalam digitalisasi buku Pesantren. Analisis ini menjadi landasan bagi temuan penelitian dan rekomendasi. Hasilnya, penelitian ini berhasil mengimplementasikan Tesseract OCR untuk buku Pesantren. Hal ini memerlukan konfigurasi Tesseract untuk mengenali bahasa Arab sebagai pencapaian penting dalam menangani konten skrip campuran yang biasa ditemukan di buku pesantren. Berdasarkan temuan tersebut, teknik pra-pemrosesan secara signifikan meningkatkan akurasi OCR. Evaluasi akurasi OCR menunjukkan peningkatan yang signifikan ketika teknik pra-pemrosesan digunakan. Berdasarkan temuan, pendekatan yang paling efektif melibatkan kombinasi pra-pemrosesan dan Tesseract OCR, yang menghasilkan kesamaan teks tertinggi dan tingkat kesalahan kata terendah. Secara keseluruhan, temuan ini menekankan pentingnya teknik pra-pemrosesan dan pasca-pemrosesan dalam meningkatkan akurasi OCR untuk buku-buku Pesantren, serta pendekatan praktis untuk mendigitalkan konten budaya dan pendidikan yang berharga ini.

Item Type: Thesis (Diploma)
Subjects: A Computer Science > Artificial Intelligence
A Computer Science > Applied Computer Science
Divisions: Jurusan Teknologi Informasi > Teknik Informatika
Depositing User: Abdul Rohman
Date Deposited: 18 Dec 2023 02:47
Last Modified: 18 Dec 2023 02:47
URI: http://repota.jti.polinema.ac.id/id/eprint/769

Actions (login required)

View Item View Item