Watch and Learn ! : Makalah Tokenisasi, Stoprword Removal dan Stemming

Makalah

Sistem Temu Kembali Informasi

Penerapan Tokenisasi, Stopword Removal dan Stemming

Disusun Oleh :

Rr. Binar Novicha Prameswari (16.01.63.0002)

Dosen Pengampu :

Dr. Drs. Eri Zuliarso, M.Kom

FAKULTAS TEKNOLOI INFORMASI

PROGRAM STUDI TEKNIK INFORMATIKA

UNIVERSITAS STIKUBANK

2017

KATA PENGANTAR

Puji syukur selalu penyusun panjatkan kehadirat Allah SWT atas segala segala limpahan rahmat dan hidayah-Nya, sehingga penyusun dapat menyelesaikan makalah yang berjudul “Penerapan Tokenisasi, Stopword Removal dan Stemming”.

Terwujudnya laporan ini tidak terlepas dari banyaknya bantuan secara langsung maupun tidak langsung dari berbagai pihak dan sumber-sumber yang tidak dapat penyusun sebutkan satu per satu sehingga makalah ini dapat diselesaikan dengan baik. Oleh karena itu penyusun ingin mengucapkan terima kasih kepada:

1. Dr. Drs. Eri Zuliarso, M.Kom. selaku Dosen Mata Kuliah Sistem Temu Kembali Informasi

2. Semua pihak yang ikut membantu dalam penyusunan makalah ini

Semoga laporan ini bermanfaat khususnya bagi penulis dan umumnya bagi pembaca. Kritik dan saran yang membangun sangat penulis harapkan demi penyempurnaan makalah di masa yang akan datang.

Semarang, Oktober 2017

Penulis

BAB I

PENDAHULUAN

1.1 Latar Belakang

Sistem Temu Kembali Informasi (Information Retrieval) digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Salah satu aplikasi umum dari sistem temu kembali informasi adalah search-engine atau mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-halaman Web yang dibutuhkannya melalui mesin tersebut.

Di dalam Information Retrieval juga terdapat beberapa tahapan yaitu Text Preprocessing, Pembobotan, dan Indexing. Text Preprocessing diperlukan untuk memilih kata yang akan digunakan sebagai indeks. Indeks adalah kata-kata yang mewakili sebuah dokumen dan digunakan untuk membuat permodelan Information Retrieval System (IRS). Text Processing juga melalui beberapa tahapan, yaitu Tokenisasi, Stopword Removal, dan Stemming yang akan dibahas dalam makalah ini.

1.2 Rumusan Masalah

1. Apa yang dimaksud dengan Tokenisasi, Stopword Removal dan Stemming?

2. Bagaimana cara kerja Tokenisasi, Stopword Removal dan Stemming?

1.3 Manfaat dan Tujuan

Manfaat

1. Menambah pengetahuan tentang penggunaan Tokenisasi, Stopword Removal dan Stemming.

Tujuan

1. Mampu menerapkan penggunaan Tokenisasi, Stopword Removal dan Stemming dalam pengaplikasian langsung di dalam suatu sistem pencarian.

BAB II

LANDASAN TEORI

2.1 Pengertian Sistem Temu Kembali Informasi

Sistem temu kembali informasi berasal dari kata Information Retrieval System (IRS). Temu kembali informasi adalah sebuah media layanan bagi pengguna untuk memperoleh informasi atau sumber informasi yang dibutuhkan oleh pengguna.

Sistem temu kembali informasi merupakan sistem informasi yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai. Sistem temu kembali informasi berfungsi sebagai perantara kebutuhan informasi pengguna dengan sumber informasi yang tersedia.

Pengertian yang sama mengenai sistem temu kembali informasi menurut Sulistyo-Basuki sistem temu kembali informasi adalah kegiatan yang bertujuan untuk menyediakan dan memasok informasi bagi pemakai sebagai jawaban atas permintaan atau berdasarkan kebutuhan pemakai. Dapat dinyatakan bahwa sistem temu kembali informasi memiliki fungsi dalam menyediakan kebutuhan informasi sesuai dengan kebutuhan dan permintaan penggunanya.

Definisi lain yang mengemukakan bahwa: “Sistem temu kembali informasi adalah suatu proses yang dilakukan untuk menemukan dokumen yang dapat memberikan kepuasan bagi pengguna dalam memenuhi kebutuhan informasinya”. Tujuan utama sistem temu kembali informasi adalah untuk menemukan dokumen yang sesuai dengan kebutuhan informasi pengguna secara efektif dan efisien, sehingga dapat memberikan kepuasan baginya, dan sasaran akhir dari sistem temu kembali informasi adalah kepuasan pemakai. Sistem temu kembali informasi merupakan ilmu pengetahan yang berfungsi dalam penempatan sejumlah dokumen dalam memenuhi kebutuhan informasi pengguna. Menurut Hasugian, dasar dari sistem temu balik informasi adalah proses untuk mengidentifikasi kecocokan diantara permintaan dengan representasi atau indeks dokumen, kemudian mengambil dokumen dari suatu simpanan sebagai jawaban atas pemintaan tersebut. Sistem temu kembali informasi pada prinsipnya bekerja berdasarkan ukuran antara istilah query dengan istilah yang menjadi representasi dokumen. Pengertian lain yang menyatakan bahwa Sistem temu kembali informasi adalah proses yang berhubungan dengan representasi, penyimpanan, pencarian, dan pemanggilan informasi yang relavan dengan kebutuhan informasi yang diinginkan pengguna, Pendapat ini menunjukkan bahwa dalam Sistem Temu Kembali Informasi terkandung sejumlah kegiatan yang meliputi proses identifikasi kecocokan, representasi, penyimpanan, pengambilan, serta pencarian atau penelusuran dokumen yang relevan atau sesuai, dalam rangka memenuhi kebutuhan informasi pengguna.

Maka dapat disimpulkan bahwa sistem temu kembali informasi merupakan sebuah sistem yang berguna dalam memanggil dan menempatkan dokumen dari/dalam basis data sesuai dengan permintaan pengguna. Sistem temu kembali informasi memiliki tujuan akhir, yaitu memberikan kepuasan informasi bagi pengguna sistem. Jadi, temu kembali informasi merujuk pada keseluruhan. kegiatan yang meliputi pembuatan wakil informasi (representation), penyimpanan (storage), pengaturan (organization) sampai kepada pengambilan (access).

Gambar 2.2 Tahap Preprocessing

1. Case folding

Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu, peran Case Folding dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil atau lowercase). Sebagai contoh, user yang ingin mendapatkan informasi “KOMPUTER” dan mengetik “KOMPOTER”, “KomPUter”, atau “komputer”, tetap diberikan hasil retrieval yang sama yakni “komputer”. Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.

2. Tokenizing

Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata, bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan.

Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata. Namun untuk karakter petik tunggal (‘), titik (.), semikolon (;), titk dua (:) atau lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata.

Dalam memperlakukan karakter-karakter dalam teks sangat tergantung pada kontek aplikasi yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur bahasa (grammatikal).

Gambar 2.3 Tahap Tokenizing

3. Filtering

Tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata kurang penting) atau wordlist (menyimpan kata penting). Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya. Data stopword dapat diambil dari jurnal Fadillah Z Tala berjudul ”A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”

Gambar 2.4 Tahap Filtering

Kata-kata seperti “dari”, “yang”, “di”, dan “ke”, “antara”, adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan. Selain itu, juga dapat mengurangi level noise.

Namun terkadang stopping tidak selalu meningkatkan nilai retrieval. Pembangunan daftar stopword (disebut stoplist) yang kurang hati-hati dapat memperburuk kinerja sistem Information Retrieval (IR). Belum ada suatu kesimpulan pasti bahwa penggunaan stopping akan selalu meningkatkan nilai retrieval, karena pada beberapa penelitian, hasil yang didapatkan cenderung bervariasi.

4. Stemming.

Pembuatan indeks dilakukan karena suatu dokumen tidak dapat dikenali langsung oleh suatu Sistem Temu Kembali Informasi atau Information Retrieval System (IRS). Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan ke dalam suatu representasi dengan menggunakan teks yang berada di dalamnya.

Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda.

Sebagai contoh kata bersama, kebersamaan, menyamai, akan distem ke root word-nya yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung pada domain bahasa yang digunakan.

Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.

Gambar 2.5 Tahap Stemming

2.3 Pengaplikasian Sistem Temu Kembali Informasi

Pada mesin pencari yang dibuat, user bebas memasukkan kata yang sesuai dengan bahasa manusia maupun dengan dokumen yang diupload oleh user

Gambar 2.6 Tampilan Awal

Gambar 2.7 Hasil Pencarian Kata Dasar

Gambar 2.8 Halaman Upload File Undang-undang

Gambar 2.9 Tampilan Hasil Tokenisasi, Stopword Removal, dan Stemming

BAB III

KESIMPULAN

3.1 Kesimpulan

1. Tokenisasi, Stopword maupun dan Stemming merupakan bagian dari Text Processing yang berguna untuk menyeleksi data yang akan diproses pada setiap dokumen.

2. Sistem yang telah menggunakan text processing ini membuat pencarian lebih mudah didapatkkan

DAFTAR PUSTAKA

Chowdhury. Introduction to Modern Information Retrieval. London: Library Association, 1999.

https://informatikalogi.com/text-preprocessing/

Watch and Learn !

Makalah Tokenisasi, Stoprword Removal dan Stemming

0 komentar:

Posting Komentar

Tentang Binar

Blog Archive