Makalah Tokenisasi, Stoprword Removal dan Stemming
Makalah
Sistem
Temu Kembali Informasi
Penerapan
Tokenisasi, Stopword Removal dan Stemming
Disusun
Oleh :
Rr.
Binar Novicha Prameswari (16.01.63.0002)
Dosen
Pengampu :
Dr. Drs. Eri Zuliarso, M.Kom
FAKULTAS TEKNOLOI INFORMASI
PROGRAM STUDI TEKNIK INFORMATIKA
UNIVERSITAS STIKUBANK
2017
KATA
PENGANTAR
Puji syukur
selalu penyusun panjatkan kehadirat Allah SWT atas segala segala limpahan
rahmat dan hidayah-Nya, sehingga penyusun dapat menyelesaikan makalah yang
berjudul “Penerapan Tokenisasi, Stopword Removal dan Stemming”.
Terwujudnya laporan ini
tidak terlepas dari banyaknya bantuan secara langsung maupun tidak langsung
dari berbagai pihak dan sumber-sumber yang tidak dapat penyusun
sebutkan satu per satu sehingga makalah ini dapat diselesaikan dengan baik. Oleh karena itu penyusun ingin mengucapkan terima kasih
kepada:
1.
Dr. Drs. Eri
Zuliarso, M.Kom. selaku Dosen Mata Kuliah Sistem Temu Kembali Informasi
2.
Semua
pihak yang ikut membantu dalam penyusunan makalah ini
Semoga laporan ini bermanfaat khususnya
bagi penulis dan umumnya bagi pembaca. Kritik dan saran yang membangun sangat
penulis harapkan demi penyempurnaan makalah di masa yang akan datang.
Semarang, Oktober 2017
Penulis
BAB I
PENDAHULUAN
1.1
Latar Belakang
Sistem Temu Kembali Informasi (Information Retrieval) digunakan untuk
menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna
dari suatu kumpulan informasi secara otomatis. Salah satu aplikasi umum dari
sistem temu kembali informasi adalah search-engine atau mesin pencarian yang
terdapat pada jaringan internet. Pengguna dapat mencari halaman-halaman Web
yang dibutuhkannya melalui mesin tersebut.
Di dalam Information Retrieval juga terdapat beberapa tahapan yaitu Text
Preprocessing, Pembobotan, dan Indexing. Text Preprocessing diperlukan untuk memilih
kata yang akan digunakan sebagai indeks. Indeks adalah kata-kata yang mewakili
sebuah dokumen dan digunakan untuk membuat permodelan Information Retrieval
System (IRS). Text Processing juga
melalui beberapa tahapan, yaitu Tokenisasi, Stopword Removal, dan Stemming yang
akan dibahas dalam makalah ini.
1.2
Rumusan Masalah
1.
Apa yang dimaksud dengan
Tokenisasi, Stopword Removal dan Stemming?
2.
Bagaimana cara kerja
Tokenisasi, Stopword Removal dan Stemming?
1.3
Manfaat dan Tujuan
Manfaat
1.
Menambah pengetahuan
tentang penggunaan Tokenisasi, Stopword Removal dan Stemming.
Tujuan
1.
Mampu menerapkan
penggunaan Tokenisasi, Stopword Removal dan Stemming dalam pengaplikasian
langsung di dalam suatu sistem pencarian.
BAB II
LANDASAN TEORI
2.1
Pengertian
Sistem Temu Kembali Informasi
Sistem temu kembali informasi berasal dari
kata Information Retrieval System (IRS). Temu kembali informasi adalah sebuah
media layanan bagi pengguna untuk memperoleh informasi atau sumber informasi
yang dibutuhkan oleh pengguna.
Sistem temu kembali informasi merupakan sistem informasi yang berfungsi
untuk menemukan informasi yang relevan dengan kebutuhan pemakai. Sistem temu
kembali informasi berfungsi sebagai perantara kebutuhan informasi pengguna
dengan sumber informasi yang tersedia.
Pengertian yang sama mengenai sistem temu
kembali informasi menurut Sulistyo-Basuki sistem temu kembali informasi adalah
kegiatan yang bertujuan untuk menyediakan dan memasok informasi bagi pemakai
sebagai jawaban atas permintaan atau berdasarkan kebutuhan pemakai. Dapat
dinyatakan bahwa sistem temu kembali informasi memiliki fungsi dalam
menyediakan kebutuhan informasi sesuai dengan kebutuhan dan permintaan
penggunanya.
Definisi lain yang mengemukakan bahwa:
“Sistem temu kembali informasi adalah suatu proses yang dilakukan untuk
menemukan dokumen yang dapat memberikan kepuasan bagi pengguna dalam memenuhi
kebutuhan informasinya”. Tujuan utama sistem temu kembali informasi adalah
untuk menemukan dokumen yang sesuai dengan kebutuhan informasi pengguna secara
efektif dan efisien, sehingga dapat memberikan kepuasan baginya, dan sasaran
akhir dari sistem temu kembali informasi adalah kepuasan pemakai. Sistem temu
kembali informasi merupakan ilmu pengetahan yang berfungsi dalam penempatan
sejumlah dokumen dalam memenuhi kebutuhan informasi pengguna. Menurut Hasugian,
dasar dari sistem temu balik informasi adalah proses untuk mengidentifikasi
kecocokan diantara permintaan dengan representasi atau indeks dokumen, kemudian
mengambil dokumen dari suatu simpanan sebagai jawaban atas pemintaan tersebut.
Sistem temu kembali informasi pada prinsipnya bekerja berdasarkan ukuran antara
istilah query dengan istilah yang menjadi representasi dokumen. Pengertian lain
yang menyatakan bahwa Sistem temu kembali informasi adalah proses yang
berhubungan dengan representasi, penyimpanan, pencarian, dan pemanggilan
informasi yang relavan dengan kebutuhan informasi yang diinginkan pengguna,
Pendapat ini menunjukkan bahwa dalam Sistem Temu Kembali Informasi terkandung
sejumlah kegiatan yang meliputi proses identifikasi kecocokan, representasi,
penyimpanan, pengambilan, serta pencarian atau penelusuran dokumen yang relevan
atau sesuai, dalam rangka memenuhi kebutuhan informasi pengguna.
Maka dapat disimpulkan bahwa sistem temu kembali
informasi merupakan sebuah sistem yang berguna dalam memanggil dan menempatkan
dokumen dari/dalam basis data sesuai dengan permintaan pengguna. Sistem temu
kembali informasi memiliki tujuan akhir, yaitu memberikan kepuasan informasi
bagi pengguna sistem. Jadi, temu kembali informasi merujuk pada keseluruhan.
kegiatan yang meliputi pembuatan wakil informasi (representation), penyimpanan
(storage), pengaturan (organization) sampai kepada pengambilan (access).
Gambar 2.2 Tahap Preprocessing
1.
Case
folding
Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh
karena itu, peran Case Folding dibutuhkan dalam mengkonversi keseluruhan teks
dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil atau
lowercase). Sebagai contoh, user yang ingin mendapatkan informasi “KOMPUTER”
dan mengetik “KOMPOTER”, “KomPUter”, atau “komputer”, tetap diberikan hasil
retrieval yang sama yakni “komputer”. Case folding adalah mengubah semua huruf
dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang
diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.
2.
Tokenizing
Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu
teks ke dalam satuan kata, bagaimana membedakan karakter-karakter tertentu yang
dapat diperlakukan sebagai pemisah kata atau bukan.
Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi
dianggap sebagai pemisah kata. Namun untuk karakter petik tunggal (‘), titik
(.), semikolon (;), titk dua (:) atau lainnya, dapat memiliki peran yang cukup
banyak sebagai pemisah kata.
Dalam memperlakukan karakter-karakter dalam teks sangat tergantung pada
kontek aplikasi yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit
jika juga harus memperhatikan struktur bahasa (grammatikal).
Gambar 2.3 Tahap Tokenizing
3. Filtering
Tahap Filtering adalah tahap mengambil kata-kata
penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata
kurang penting) atau wordlist (menyimpan kata penting). Stoplist/stopword
adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan
bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan
seterusnya. Data stopword dapat diambil dari jurnal Fadillah Z Tala berjudul ”A
Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”
Gambar 2.4 Tahap Filtering
Kata-kata seperti “dari”, “yang”, “di”, dan “ke”, “antara”, adalah
beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir
dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini
dapat mengurangi ukuran index dan waktu pemrosesan. Selain itu, juga dapat
mengurangi level noise.
Namun terkadang stopping tidak selalu meningkatkan nilai retrieval.
Pembangunan daftar stopword (disebut stoplist) yang kurang hati-hati dapat
memperburuk kinerja sistem Information Retrieval (IR). Belum ada suatu
kesimpulan pasti bahwa penggunaan stopping akan selalu meningkatkan nilai
retrieval, karena pada beberapa penelitian, hasil yang didapatkan cenderung
bervariasi.
4.
Stemming.
Pembuatan indeks dilakukan karena suatu dokumen tidak dapat dikenali
langsung oleh suatu Sistem Temu Kembali Informasi atau Information Retrieval
System (IRS). Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan
ke dalam suatu representasi dengan menggunakan teks yang berada di dalamnya.
Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang
berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain
yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form
yang berbeda karena mendapatkan imbuhan yang berbeda.
Sebagai contoh kata bersama, kebersamaan, menyamai, akan distem ke root
word-nya yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming juga
bervariasi dan sering tergantung pada domain bahasa yang digunakan.
Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming
pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang
diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa
Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.
Gambar 2.5 Tahap Stemming
2.3 Pengaplikasian
Sistem Temu Kembali Informasi
Pada mesin pencari
yang dibuat, user bebas memasukkan kata yang sesuai dengan bahasa manusia
maupun dengan dokumen yang diupload oleh user
Gambar 2.6 Tampilan Awal
Gambar 2.7 Hasil Pencarian Kata Dasar
Gambar 2.8 Halaman Upload File Undang-undang
Gambar 2.9 Tampilan Hasil Tokenisasi, Stopword Removal, dan Stemming
BAB III
KESIMPULAN
3.1
Kesimpulan
1. Tokenisasi, Stopword maupun dan
Stemming merupakan bagian dari Text Processing yang berguna untuk menyeleksi
data yang akan diproses pada setiap dokumen.
2. Sistem yang telah menggunakan text
processing ini membuat pencarian lebih mudah didapatkkan
DAFTAR
PUSTAKA
Chowdhury. Introduction to Modern Information Retrieval. London:
Library Association, 1999.
https://informatikalogi.com/text-preprocessing/