Rocchio Relevance Feedback
Metode Rocchio Relevance Feedback adalah strategi reformulasi query paling
populer karena sering digunakan untuk membantu user pemula suatu information retrieval system. Dalam
siklus relevance feedback user
disajikan hasil pencarian dokumen, setelah itu user dapat memeriksa dan
memnadai dokumen yang benar-benar relevan.
Teknik relevance feedback ditemukan
pertama kali oleh Rocchio. Rocchio memandang feedback sebagai permasalah dalam
mencari sebuah query optimal, yaitu query yang memaksimalkan selisih antara
dokumen relevan dengan dokumen tak relevan. Relevance feedback berguna untuk
mendekatkan query ke rataan dokumen relevan dan menjauhkan ke rataan dokumen
tak relevan. Ini bisa dilakukan melalui penambahan istilah query dan
penyesuaian bobot istilah query sehingga sesuai dengan kegunaan istilah
tersebut dalam fungsinya membedakan dokumen relevan dan tak relevan.
Proses Perhitungan Rocchio Relevance Feedback
1.
Tokenizing
Tokenizing adalah tahap pemrosesan sebuah kata kunci menjadi
unit kecil yang disebut token, yang berupa suatu kata, angka, atau tanda baca.
2.
Filtering
Filtering adalah pengambilan kata-kata penting hasil dari
tokenizing. Misalnya yang, awalan (di-, me-, pe-,…), dan, dari, akhiran (-kan,
-I, -lah,…), dll.
3.
Stemming
Stemming adalah pencarian akhir kata dari tiap kata hasil
filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata
ke dalam suatu representasi yang sama. Misalnya kata “menghasilkan” akan
menjadi “hasil”.
4.
Term Weighting
Term Weighting merupakan proses penghitungan bobot tiap term yang dicari
pada setiap dokumen sehingga dapat diketahui ketersediaan dan kemiripan suatu
term di dalam dokumen. Pada dokumen yang besar, skema yang paling sukses dan
secara luas digunakan untuk pemberian bobot adalah skema pembobotan “ term
frequency * inverse document frequency ” disebut sebagai nilai bobot
term atau β. Term frequency (tf) adalah frekuensi
dari kemunculan sebuah term dalam dokumen yang bersangkutan. Idf merupakan
sebuah perhitungan dari bagaimana term didistribusikan secara luas pada
koleksi dokumen yang bersangkutan. Inverse document frequency menunjukkan
hubungan ketersediaan sebuah term dalam seluruh dokumen. Semakin sedikit
jumlah dokumen yang mengandung term yang dimaksud, maka nilai idf semakin
besar. Nilai idf sebuah term dirumuskan dalam persamaan berikut :
Penghitungan bobot dari term tertentu dalam
sebuah dokumen dengan menggunakan perkalian nilai tf dan idf menunjukkan
bahwa deskripsi terbaik dari dokumen adalah term yang banyak muncul
dalam dokumen tersebut dan sangat sedikit muncul pada dokumen yang lain.
Perhitungan bobot term adalah sebagai berikut :
Tingkat kemiripan term pada dokumen yang dicari dapat dituliskan pada
persamaan Rocchio Relevance Feedback berikut
ini :
Kesimpulan dari perhitungan dengan menggunakan rumus di atas yaitu
dokumen yang memiliki nilai R terbesar
adalah dokumen yang paling sesuai dengan input term (query) dari user.
Tidak ada komentar:
Posting Komentar