Rocchio Classification

/
0 Comments
Rocchio Relevance Feedback

Metode Rocchio Relevance Feedback adalah strategi reformulasi query paling populer karena sering digunakan untuk membantu user pemula suatu information retrieval system. Dalam siklus relevance feedback user disajikan hasil pencarian dokumen, setelah itu user dapat memeriksa dan memnadai dokumen yang benar-benar relevan.
Teknik relevance feedback ditemukan pertama kali oleh Rocchio. Rocchio memandang feedback sebagai permasalah dalam mencari sebuah query optimal, yaitu query yang memaksimalkan selisih antara dokumen relevan dengan dokumen tak relevan. Relevance feedback berguna untuk mendekatkan query ke rataan dokumen relevan dan menjauhkan ke rataan dokumen tak relevan. Ini bisa dilakukan melalui penambahan istilah query dan penyesuaian bobot istilah query sehingga sesuai dengan kegunaan istilah tersebut dalam fungsinya membedakan dokumen relevan dan tak relevan.


Proses Perhitungan Rocchio Relevance Feedback

1.      Tokenizing
Tokenizing adalah tahap pemrosesan sebuah kata kunci menjadi unit kecil yang disebut token, yang berupa suatu kata, angka, atau tanda baca.

2.      Filtering
Filtering adalah pengambilan kata-kata penting hasil dari tokenizing. Misalnya yang, awalan (di-, me-, pe-,…), dan, dari, akhiran (-kan, -I, -lah,…), dll.

3.      Stemming
Stemming adalah pencarian akhir kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Misalnya kata “menghasilkan” akan menjadi “hasil”.

4.      Term Weighting
Term Weighting merupakan proses penghitungan bobot tiap term yang dicari pada setiap dokumen sehingga dapat diketahui ketersediaan dan kemiripan suatu term di dalam dokumen. Pada dokumen yang besar, skema yang paling sukses dan secara luas digunakan untuk pemberian bobot adalah skema pembobotan “ term frequency * inverse document frequency ” disebut sebagai nilai bobot term atau β. Term frequency (tf) adalah frekuensi dari kemunculan sebuah term dalam dokumen yang bersangkutan. Idf merupakan sebuah perhitungan dari bagaimana term didistribusikan secara luas pada koleksi dokumen yang bersangkutan. Inverse document frequency menunjukkan hubungan ketersediaan sebuah term dalam seluruh dokumen. Semakin sedikit jumlah dokumen yang mengandung term yang dimaksud, maka nilai idf semakin besar. Nilai idf sebuah term dirumuskan dalam persamaan berikut :

 

Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan menggunakan perkalian nilai tf dan idf menunjukkan bahwa deskripsi terbaik dari dokumen adalah term yang banyak muncul dalam dokumen tersebut dan sangat sedikit muncul pada dokumen yang lain. Perhitungan bobot term adalah sebagai berikut :
 
Tingkat kemiripan term pada dokumen yang dicari dapat dituliskan pada persamaan Rocchio Relevance Feedback berikut ini :



Kesimpulan dari perhitungan dengan menggunakan rumus di atas yaitu dokumen yang memiliki nilai R terbesar  adalah dokumen yang paling sesuai dengan input term (query) dari user.
 


You may also like

Tidak ada komentar:

Diberdayakan oleh Blogger.

It's Me

Foto Saya
Fitriana Dzulfaidah
Saya adalah mahasiswa Universitas Airlangga '12 jurusan Sistem Informasi. Saya termasuk orang yang fleksibel. Kalau teman saya pendiam, saya juga bisa jadi pendiam. Tetapi kalau teman saya ramai, saya juga bisa ramai. Namun pada dasarnya saya orang yang suka lelucon dan ketawa.
Lihat profil lengkapku

Followers

You can replace this text by going to "Layout" and then "Page Elements" section. Edit " About "

Lucky Charms Rainbow

Search This Blog

Memuat...

My Note


Gitagut

Pin

Cuteki cute

Popular Posts

Pages

Popular Posts