RATMOKO, JONATHAN EKA (2021) PENERAPAN ALGORITMA COSINE SIMILARITY UNTUK PENGKLASIFIKASIAN OTOMATIS DOKUMEN KEPEGAWAIAN DENGAN TEKNIK OCR DI KEMENTERIAN DALAM NEGERI. S1 thesis, Universitas Mercu Buana Jakarta.
|
Text (HAL COVER)
Jonathan Eka Ratmoko-41519310035-Cover - JONATHAN EKA RATMOKO.pdf Download (675kB) | Preview |
|
Text (BAB I)
Jonathan Eka Ratmoko-41519310035-Bab 1 - JONATHAN EKA RATMOKO.pdf Restricted to Registered users only Download (115kB) |
||
Text (BAB II)
Jonathan Eka Ratmoko-41519310035-Bab 2 - JONATHAN EKA RATMOKO.pdf Restricted to Registered users only Download (45kB) |
||
Text (BAB III)
Jonathan Eka Ratmoko-41519310035-Bab 3 - JONATHAN EKA RATMOKO.pdf Restricted to Registered users only Download (192kB) |
||
Text (BAB IV)
Jonathan Eka Ratmoko-41519310035-Bab 4 - JONATHAN EKA RATMOKO.pdf Restricted to Registered users only Download (232kB) |
||
Text (BAB V)
Jonathan Eka Ratmoko-41519310035-Bab 5 - JONATHAN EKA RATMOKO.pdf Restricted to Registered users only Download (220kB) |
||
Text (BAB VI)
Jonathan Eka Ratmoko-41519310035-Bab 6 - JONATHAN EKA RATMOKO.pdf Restricted to Registered users only Download (49kB) |
||
Text (DAFTAR PUSTAKA)
Jonathan Eka Ratmoko-41519310035-Daftar Pustaka - JONATHAN EKA RATMOKO.pdf Restricted to Registered users only Download (63kB) |
||
Text (LAMPIRAN)
Jonathan Eka Ratmoko-41519310035-Lampiran - JONATHAN EKA RATMOKO.pdf Restricted to Registered users only Download (235kB) |
Abstract
Good handling in the field of archives will certainly support the course of administrative activities in each organization. The problem at the Ministry of Home Affairs is that the civil servant archiving is still manual and has not been organized based on the type of document category, with a manual system that can slow down the performance of civil servants in archiving personnel documents. Text Mining is one way to handle this problem by utilizing OCR technology to get the words in the image, the right text mining algorithm for classifying documents is Cosine Similarity. The implementation of the system uses python, the tesseract library functions for the implementation of OCR, while the cosine similarity process is carried out by the sklearn library. The results of the OCR show that characters that are not in the sk_cpns.jpg document are also extracted. The results obtained by the Cosine Similarity algorithm are that the document has a similarity value of 0.22209373 with a percentage of 22.20%, which means that the sk_cpns.jpg document is a category of the Prospective Civil Servant Decree. Key words: document, classification, OCR, Cosine Similarity Penanganan yang baik dalam bidang kearsipan tentu akan mendukung jalannya kegiatan administrasi pada setiap organisasi. Permasalahan di Kementerian Dalam Negeri adalah pengarsipan dibidang kepegawaian masih secara manual dan belum tertata berdasarkan jenis kategori dokumennya, dengan sistem yang masih manual dapat memperlambat kinerja PNS dalam pengarsipan dokumen-dokumen kepegawaian. Text mining merupakan salah satu cara penanganan masalah tersebut dengan memanfaatkan teknologi OCR untuk mendapatkan kata-kata yang ada di dalam gambar, algoritma text mining yang tepat untuk pengklasifikasian dokumen adalah cosine similarity. Pengimplementasian sistem tersebut menggunakan python, library tesseract berfungsi untuk penerapan OCR, sedangkan proses cosine similarity dilakukan oleh library sklearn. Hasil dari OCR menunjukan terdapat karakter-karakter yang tidak terdapat di dokumen sk_cpns.jpg juga ikut terkestraksi, sedangkan hasil yang didapatkan oleh algoritma cosine similarity bahwa dokumen tersebut memiliki nilai kemiripan 0.22209373 dengan persentase 22.20%, yang berarti bahwa dokumen sk_cpns.jpg merupakan kategori dari Surat Keputusan Calon Pegawai Negeri Sipil. Kata kunci: dokumen, klasifikasi, OCR, Cosine Similarity
Actions (login required)
View Item |