Rocchio Classification

Rocchio Relevance Feedback

Metode Rocchio Relevance Feedback adalah strategi reformulasi query paling populer karena sering digunakan untuk membantu user pemula suatu information retrieval system. Dalam siklus relevance feedback user disajikan hasil pencarian dokumen, setelah itu user dapat memeriksa dan memnadai dokumen yang benar-benar relevan.

Teknik relevance feedback ditemukan pertama kali oleh Rocchio. Rocchio memandang feedback sebagai permasalah dalam mencari sebuah query optimal, yaitu query yang memaksimalkan selisih antara dokumen relevan dengan dokumen tak relevan. Relevance feedback berguna untuk mendekatkan query ke rataan dokumen relevan dan menjauhkan ke rataan dokumen tak relevan. Ini bisa dilakukan melalui penambahan istilah query dan penyesuaian bobot istilah query sehingga sesuai dengan kegunaan istilah tersebut dalam fungsinya membedakan dokumen relevan dan tak relevan.

Proses Perhitungan Rocchio Relevance Feedback

1. Tokenizing

Tokenizing adalah tahap pemrosesan sebuah kata kunci menjadi unit kecil yang disebut token, yang berupa suatu kata, angka, atau tanda baca.

2. Filtering

Filtering adalah pengambilan kata-kata penting hasil dari tokenizing. Misalnya yang, awalan (di-, me-, pe-,…), dan, dari, akhiran (-kan, -I, -lah,…), dll.

3. Stemming

Stemming adalah pencarian akhir kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Misalnya kata “menghasilkan” akan menjadi “hasil”.

4. Term Weighting

Term Weighting merupakan proses penghitungan bobot tiap term yang dicari pada setiap dokumen sehingga dapat diketahui ketersediaan dan kemiripan suatu term di dalam dokumen. Pada dokumen yang besar, skema yang paling sukses dan secara luas digunakan untuk pemberian bobot adalah skema pembobotan “ term frequency * inverse document frequency ” disebut sebagai nilai bobot term atau β. Term frequency (tf) adalah frekuensi dari kemunculan sebuah term dalam dokumen yang bersangkutan. Idf merupakan sebuah perhitungan dari bagaimana term didistribusikan secara luas pada koleksi dokumen yang bersangkutan. Inverse document frequency menunjukkan hubungan ketersediaan sebuah term dalam seluruh dokumen. Semakin sedikit jumlah dokumen yang mengandung term yang dimaksud, maka nilai idf semakin besar. Nilai idf sebuah term dirumuskan dalam persamaan berikut :

Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan menggunakan perkalian nilai tf dan idf menunjukkan bahwa deskripsi terbaik dari dokumen adalah term yang banyak muncul dalam dokumen tersebut dan sangat sedikit muncul pada dokumen yang lain. Perhitungan bobot term adalah sebagai berikut :

Tingkat kemiripan term pada dokumen yang dicari dapat dituliskan pada persamaan Rocchio Relevance Feedback berikut ini :

Kesimpulan dari perhitungan dengan menggunakan rumus di atas yaitu dokumen yang memiliki nilai R terbesar adalah dokumen yang paling sesuai dengan input term (query) dari user.

I Love, I Share

Rocchio Classification

Tidak ada komentar:

Posting Komentar