| Judul/Title | Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia |
| Penulis/Author | ZAHRATUL FIKRINA (1) ; Teguh Bharata Adji, S.T., M.T., M.Eng., Ph.D (2); Prof. Ir. Hanung Adi Nugroho, S.T., M.Eng., Ph.D., IPM., SMIEEE. (3) |
| Tanggal/Date | 2017 |
| Kata Kunci/Keyword | |
| Abstrak/Abstract | Portal berita online memiliki aliran data yang sangat besar, namun pengelompokan berita belum sesuai dengan konten atau isi berita. Klasterisasi dokumen merupakan teknik pengolahan teks tidak terbimbing dimana tidak didefinisikan terlebih dahulu kategori atau pembagian kelas di dalam pengelompokkan data teks. Pengelompokan berita akan dilakukan dengan klasterisasi dokumen K-means. Representasi data diperlukan untuk mencari fitur yang akan digunakan sebagai ukuran kemiripan dari setiap dokumen data teks. VSM (Vector Space Model) telah banyak digunakan sebagai model pembobotan teks, dimana menggunakan algoritma tfidf sebagai ukuran bobot tiap term (kata). VSM menggunakan ruang vektor dalam representasi nilai bobot sama halnya dengan algoritma perhitungan kemiripan kosinus. Algoritma ini menghitung sudut dua vektor (pasangan dokumen) di dalam ruang vektor. Berdasarkan percobaan yang dilakukan, didapatkan pengaruh dari penggunaan perhitungan kemiripan kosinus dibandingkan dengan penggunaan fitur tfidf saja dalam klasterisasi dokumen. Evaluasi hasil klasterisasi dilakukan dengan menghitung nilai silhouette coefficient. |
| Level | Nasional |
| Status |