CLUSTERING


Information Retrieval atau sistem temu balik informasi adalah sebuah sistem yang digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Aplikasi umum dari sistem temu balik informasi adalah search engine atau mesin pencarian yang ada pada jaringan internet.
Salah satu metode yang terdapat pada information retrieval adalah Clustering. Clustering adalah fenomena dimana search engine mendata dua atau lebih halaman sebuah web dengan sebuah query pencarian.

Clustering dalam IR
Konsep Dasar Clustering
Clustering merupakan proses pembagian (partisi) atau pengelompokan data. Menurut Jyoti Bora dan Kumar Gupta (2014: 108), clustering adalah suatu proses pembagian elemen-elemen data ke dalam kelompok yang berbeda (disebut sebagai cluster) sedemikian rupa sehingga elemen-elemen data dalam suatu kelompok memiliki kesamaan yang tinggi dan elemen-elemen data pada kelompok tersebut berbeda dengan elemen-elemen yang berada dalam kelompok lain.
Istilah “kesamaan” yang dimiliki elemen-elemen data harus dipahami sebagai kesamaan secara matematis, dimana ukurannya dapat didefinisikan dengan baik. Kesamaan dapat juga didefinisikan sebagai ukuran jarak. Jarak dapat diukur dari vektor data itu sendiri atau sebagai sebuah jarak dari sebuah vektor data terhadap pusat cluster (Babuska, 2009: 60). Pusat cluster biasanya tidak diketahui sebelumnya. Pusat cluster akan terlihat ketika algoritma clustering telah disimulasikan untuk pembagian data. Algoritma clustering tidak hanya ditunjukkan bagaimana bentuk dan isi dari tiap cluster, tetapi juga dengan relasi dan jarak antar cluster.
Menurut Babuska (2009: 61), secara umum metode clustering dibedakan menjadi dua yaitu clustering klasik dan fuzzy clustering. Metode clustering klasik (atau disebut juga sebagai hard clustering) didasarkan pada teori himpunan klasik yang menunjukan apakah suatu objek merupakan anggota atau bukan anggota dari suatu clusterClustering klasik bertujuan untuk membagi atau mempartisi (partitioning) data ke dalam suatu kelompok (cluster) secara eksklusif. Artinya apabila suatu elemen data telah menjadi anggota dari satu cluster, maka elemen tersebut tidak mungkin menjadi anggota dari cluster yang lain.
Berbeda dengan clustering klasik yang mempartisi data ke dalam suatu cluster secara eksklusif, metode fuzzy clustering memungkinkan suatu objek menjadi anggota dari beberapa cluster secara bersamaan dengan derajat keanggotaan yang berbeda. Setiap objek dalam suatu cluster tidak dibatasi secara tegas menjadi anggota cluster tersebut melainkan ditentukan oleh derajat keanggotaan yaitu antara 0 sampai dengan 1. Derajat keanggotaan tersebut yang akan mengindikasikan keberadaan suatu objek pada suatu cluster, dimana semakin besar derajat keanggotaan suatu objek dalam suatu cluster, maka semakin dekat objek tersebut dengan pusat clusternya. Hal ini berarti suatu objek akan cenderung menjadi anggota suatu cluster yang memiliki derajat keanggotaan yang paling besar.
Pada pengertian clustering, telah disebutkan bahwa elemen-elemen/objek-objek yang berada dalam satu cluster memiliki kesamaan yang tinggi dan berbeda dengan elemen-elemen/objek-objek yang ada pada cluster lainnya. Artinya, setiap objek dalam satu cluster akan bersifat sama dalam karakteristik tertentu, dan berbeda dengan objek-objek yang berada pada cluster lain dalam karakteristik yang sama. Hal ini menunjukan bahwa suatu cluster mempunyai kedudukan yang saling bebas dengan cluster yang lainnya, yang berarti suatu cluster tidak berpengaruh terhadap cluster yang lain dalam hal kesamaan karakteristik yang dimilikinya.
Pengertian Clustering
Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan (kemiripan). Clustering berbeda dengan group, group berarti kelompok yang sama. Tetapi, cluster tidak harus sama akan tetapi pengelompokannya berdasarkan pada kedekatan dari suatu karakteristik sample yang ada, salah satunya dengan menggunakan rumus jarak ecluidean. Aplikasinya cluster ini sangat banyak, karena hampir dalam mengidentifikasi permasalahan atau pengambilan keputusan selalu tidak persis akan tetapi cenderung memiliki kemiripan saja.
Menurut Johnson (2002: 670), jarak Euclid merupakan tipe pengukuran jarak dalam analisis Cluster yang paling umum digunakan untuk mengukur jarak dari obyek data ke pusat cluster. Jarak Euclid merupakan jarak geometris antar dua obyek data. Semakin dekat jarak maka semakin mirip suatu obyek data tersebut.
Information retrieval
Situs web di internet berjumlah miliaran.  Ketika di-query, mesin pencari akan memberikan hasil ribuan halaman. Teknik pengelompokan dapat digunakan untuk mengelompokkan hasil halaman yang diberikan mesin pencari ke dalam kelompok yang  lebih  kecil  di  mana  setiap  kelompok  berisi  halaman  yang  berkarakteristik sama atau mirip. Misalnya, dengan kata kunci query “movie” dapat diberikan hasil halaman yang dibedakan dalam kategori seperti “genre”,  “star”,”theaters”,  dan sebagainya.  Setiap kategori dapat dipecah kembali menjadi subkategori yang membentuk hierarki sehingga membantu pengguna mengeksplolrasi hasil query.
Clustering data dapat dibedakan menjadi dua tujuan (Tanet al, 2006)
            Yaitu clustering untuk pemahaman dan clustering untuk pengguna. Jika tujuan untuk pemahaman maka cluster yang tidak terbentuk harus menagkap struktur alami data. Biasanya proses clustering dan tujuan ini hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan ini seperti summarization (rata-rata, standar deviasi), pelabelan kelas pada setiap kelompok untuk kemudian digunakan sebagai data latih klasifikasi, dan sebagainya.
Sementara jika tujuannya untuk pengguna, biasanya itu tujuan utama untuk mencari prototype cluster yng paling representative terhadap  data dan  memberikan  abstraksi  dan  setiap  objek data  dalam cluster di  mana  sebuah  data terletak didalamnya. Banyak  metode clustering yang  sudah  dikembangkan  oleh  para  ahli. Masing –masing metode mempunyai karakter, kelebihan, dan kekurangan. Clustering dapat dibedakan  menurut  stuktur cluster,  keanggotaan  data  dalam cluster dan  kekompakan data dalam cluster. Metode clustering menurut  strukturnya  dibagi  menjadi  dua  yaitu  pengelompokan hirarki dan partitioning. Pengelompokan hirarki memiliki aturan satu data tunggal  bisa dianggap  sebagai  sebuah kelompok,  dua  atau  lebih  kelompok  kecil  dapat  bergabung menjadi satu kelompok besar dan begitu seterusnya hingga semua data dapat bergabung menjadi satu kelompok. Metode clustering hirarki merupakan satu-satunya metode yang masuk kedalam kategori   pengelompokan hirarki. Metode clustering   partitioning membagi  set data  kedalam  sejumlah  kelompok  yang  tidak  tumpang  tindih  (overlap) antara  satu  kelompok  dengan  kelompok  yang  lain  artinya  setiap  data  hanya  menjadi anggota satu kelompok. Metode seperti K-Means dan DBSCAN masuk dalam kategori pengelompokan partitioning. Metode clustering menurut keanggotaan dalam kelompok dibagi menjadi dua, yaitu eksklusif dan tumpang-tindih. Metode tersebut termasuk kategori eksklusif  jika  sebuah data  hanya  menjadi  anggota  satu  kelompok  dan  tidak  menjadi  anggota  kelompok yang lain.
Menurut   kategori   kekompakan   terbagi   menjadi   dua   yaitu komplet  dan  parsial.  Semua data bisa dikatakan kompak menjadi satu kelompok jika semua data bisa bergabung  menjadi  satu  (dalam  konteks penyekatan)  namun  jika  ada sedikit  data  yang  tidak  ikut  bergabung  dalam  kelompok  mayoritas  data  tersebut dikatakan   mempunyai   perilaku  menyimpang.   Data   yang   menyimpang   ini   dikenal dengan   sebutan noise.
Teorema K-Means
Clustering K-Means
Clustering K-Means Algoritma K-Means merupakan algoritma pengelompokan iterative yang melakukanpartisi set data ke dalam sejumlah K cluster yang sudah ditetapkan di awal. Algoritma K-Means sederhana  untuk  diimplemtasikan  dan  dijalankan, relative cepat, mudah  beradaptasi,  umum  penggunaannya  dalam  praktek. Secara historis, K-Means menjadi  salah  satu  algoritma  yang  paling  penting  dalam  bidang data  mining (Wu  dan Kumar, 2009). K-Means merupakan  salah  satu  metode  data clustering non  hirarki  yang  berusaha mempartisi  data yang  ada  ke  dalam  bentuk  satu  atau  lebih cluster atau kelompok.


Tujuan Clustering K-Means
Tujuan pekerjaan  pengelompokan  (clustering) data  dapat  dibedakan menajadi  dua, yaitu  pengelompokan  untuk  pemahaman  dan  pengelompokan  untuk  penggunaan. Jika tujuannya untuk pemahaman, kelompok yang terbentuk harus menangkap struktur alami data, bisanya proses pengelompokan dalam tujuan ini hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan inti seperti peringkasan atau summarization (rata–rata, standart deviasi), pelabelan kelas pada  setiap  kelompok  untuk  kemudian digunakan  sebagai  data  latih  klasifikasi,  dan  sebagainya.
Langkah Clustering K-Means Proses clustering dengan menggunakan algoritma K-Means memiliki langkah-langkah sebagai berikut:
a.         Inisialisasi: tentukan K sebagai jumlah cluster yang diinginkan dan metric ketidakmiripan (jarak) yang diinginkan. Jika perlu, tetapkan ambang batas perubahan fungsi objektif dan ambang batas perubahan centroid.
b.         Pilih K databaru set data X sebagai centroid.
c.         Alokasikan semua data kecentroidterdekat dengan metric jarak yang sudah ditetapkan (memperbaharui ID setiap data).
d.         Hitung kembali centroid C berdasarkan data yang mengikuti cluster masing-masing.
e.         Ulangi langkah tiga dan empat hingga kondisi konvergen tercapai, yaitu (a) perubahan fungsi objektif sudah dibawah ambang batas yang diinginkan; atau (b) tidak ada data yang berpindah cluster ; atau (c) perubahan posisi centroid sudah dibawah ambang batas yang ditetapkan
Hierarchiral Clustering
Beberapa teknik clustering hirarki bekerja dengan sederetan dari penggabungan yang berurutan atau sederetan dari pembagian yang berurutan. Metode hirarki agglomerative berawal dari objek-objek individual. Jadi pada awalnya banyaknya cluster samadengan banyaknya objek. Pertama-tama objek-objek yang paling mirip dikelompokkan, dan kelompok-kelompok awal ini digabungkan sesuai dengan kemiripannya. Akhirnya, sewaktu kemiripan berkurang, semua sub kelompok digabungkan menjadi satu cluster tunggal. Hasil-hasil dari metode agglomerative dan metode divisive bisa ditampilkan dalam bentuk diagram yang disebut dendrogram. Akan kita lihat bahwa dendrogram menggambarkan penggabungan atau pembagian yang akan dibuat pada tingkat-tingkat yang berurutan.
Hasil-hasil dari clustering linkage dapat disajikan secara grafik dalam bentuk dendrogram atau diagram pohon. Cabang-cabang dalam pohon menyajikan cluster. Kemudian cabang-cabang bergabung pada node yang posisinya sepanjang sumbu jarak (similaritas) menyatakan tingkat dimana penggabungan terjadi.
Langkah-langkah dalam algoritma clustering hirarki agglomerative untuk mengelompokkan N objek (item/variabel):
1.Mulai dengan N cluster, setiap cluster mengandung entiti tunggal dan sebuah matriks simetrik dari jarak (similarities) D= {dik} dengan tipe NxN.
2.Cari matriks jarak untuk pasangan cluster yang terdekat (paling mirip). Misalkan jarak antara cluster U dan V yang paling mirip adalah duv.
3.Gabungkan cluster U dan V. Label cluster yang baru dibentuk dengan (UV). Update entries pada matrik jarak dengan cara :
a.Hapus baris dan kolom yang bersesuaian dengan cluster U dan V
b.Tambahkan baris dan kolom yang memberikan jarak-jarak antara cluster (UV) dan cluster-cluster yang tersisa.
4.Ulangi langkah 2 dan 3 sebanyak (N-1) kali. (Semua objek akan berada dalam cluster tunggal setelah algoritma berahir). Catat identitas dari cluster yang digabungkan dan tingkat-tingkat (jarak atau similaritas) di mana penggabungan terjadi.
Metode-Metode Cluster Hirarki
Metode Single-linkage
Input untuk algoritma single linkage bisa berwujud jarak atau similarities antara pasangan-pasangan dari objek-objek. Kelompok-kelompok dibentuk dari entities individu dengan menggabungkan jarak paling pendek atau similarities (kemiripan) yang paling besar. Pada awalnya, kita harus menemukan jarak terpendek dalam D= {dik} dan menggabungkan objek-objek yang bersesuaian misalnya, U dan V, untuk mendapatkan cluster (UV). Untuk langkah (3) dari algoritma di atas jarak-jarak antara (UV) dan cluster W yang lain dihitung dengan cara
d( UV ) W = min{ dUW,dVW }                                                                                 (1)
Disini besaran-besaran dUW dan dVW berturut-turut adalah jarak terpendek antara cluster-cluster U dan W dan juga cluster-cluster V dan W.
Metode Complete-linkage
Complete linkage memberikan kepastian bahwa semua item-item dalam satu cluster berada dalam jarak paling jauh ( similaritas terkecil) satu sama lain. Algoritma aglomerative pada umumnya dimulai dengan menentukan entri (elemen matriks) dalam D= {dik} dan menggabungkan objek-objek yang bersesuaian misalnya U dan V untuk mendapatkan cluster (UV). Untuk langkah (3) dari algoritma di atas jarak-jarak antara cluster (UV) dan cluster Wyang lain dihitung dengan cara
                        d( UV ) W = maks{ dUW,dVW }                                                                               (2)
Di sini besaran-besaran dUW  dan dVW berturut-turut adalah jarak antara tetangga terdekat cluster-cluster U dan W dan juga cluster-cluster V dan W.


Metode Average-linkage
Average linkage memperlakukan jarak antara dua cluster sebagai jarak rata-rata antara semua pasangan item-item di mana satu anggota dari pasangan tersebut kepunyaan tiap cluster. Mulai dengan mencari matriks jarak D={dik} untuk memperoleh objek-objek paling dekat (paling mirip) misalnya U dan V. Objek-objek ini digabungkan untuk membentuk cluster (UV). Untuk langkah (3) dari algoritma di atas jarak-jarak antara(UV) dan cluster W yang lain ditentukan oleh
d( UV ) W =                                                                                              (3)
di mana dik adalah jarak antara objek i dalam cluster (UV) dan objek k dalam cluster W, dan Nuv dan Nw berturut-turut adalah banyaknya item-item dalam cluster (UV) dan W.
Labeling
Pengertian Labeling (bahasa Inggris: Tag) adalah penanda.
Dalam sistem online komputer,label (tag) adalah kata kunci non hierarki atau tidak bertingkat yang tugasnya adalah menunjukkan potongan-potongan informasi (seperti petunjuk internet,gambar digital,atau file komputer). Label merupakan jenis metadata yang membantu untuk menjelaskan suatu hal dan memungkinkan hal tersebut ditemukan ketika melakukan pencarian (browsing).
Label umumnya dipilih langsung secara informal oleh pembuat item atau penampil item,tergantung pada sistem. Istilah penandaan (tagging) dipopulerkan oleh situs yang berhubungan dengan Web 2.0 dan menjadi fitur penting di banyak layanan Web 2.0. Tagging sekarang juga menjadi bagian dari software desktop.
Sejarah dan Konteks
Penandaan atau pelabelan berfungsi untuk membantu mengklasifikasi, menandai kepemilikan, mencatat batasan, dan menunjukkan identitas online. Penandaan atau pelabelan dapat menggunakan tanda identifikasi yakni melalui bentuk kata-kata atau gambar.
Contoh penganalogian label dalam bentuk fisik di dunia ini adalah coretan ( grafiti ) dan pemberian tanda pada objek “museum”. Dalam organisasi informasi, fungsi tekstual dari kata kunci (keywords) adalah sebagai bagian dari identifikasi dan klasifikasi yang muncul sebelum komputer ada. Sekarang pencarian berbasis komputer menggunakan fungsi kata kunci sebagai cara cepat dalam mencari data yang tersimpan. Database online dan internet serta situs awal digunakan penerbit untuk membantu penggunanya mencari konten yang diinginkan.
Pada tahun 2003, website social bookmarking Delicious memberikan cara bagi penggunanya untuk menambahkan tag atau label pada bookmarks mereka yang nantinya juga mempermudah penggunanya dalam proses pencarian item. Delicious juga menyediakan tampilan agregat browseable dari bookmark semua pengguna yang menampilkan label tertentu.
Flickr memungkinkan penggunanya secara bebas menambahkan free-form tags pada masing-masing gambar, membangun metadata yang fleksibel dan mudah. Hal inilah yang membuat gambar-gambar mereka sangat dicari. Kesuksesan dari Flickr dan pengaruh Delicious memopulerkan konsep free-form tags dan situs sosial software lainnya seperti YouTube, Technorati, dan Last.fm yang juga menggunakan konsep tagging. Pada Gmail ada yang dinamakan “Labels” yang serupa dengan Tags.
Penggambaran semua label dalam situs atau blog disebut dengan kosmos label atau awan label. Label yang dibuat para pengguna ini berguna untuk para pengguna itu sendiri dan untuk komunitas yang lebih besar dari pengguna situs.
Tags bisa dikatakan berada dalam tipe klasifikasi bottom-up, berbeda dengan hierarki yang ada di klasifikasi top-down . Dalam sistem hierarki tradisional (taxonomy), perancang menetapkan sejumlah istilah yang digunakan untuk melakukan klasifikasi dan hanya ada satu isitilah yang benar untuk mengklasifikasikan setiap item.
Dalam sistem penandaan atau tagging, ada banyak cara yang tidak terbatas dalam mengklasifikasikan item yang ada dan tidak ada kata salah pilih. Karena item-item yang ada tidak berada di dalam sebuah kategori, satu item dapat memiliki beberapa tags yang berbeda. Beberapa peneliti dan aplikasinya telah bereksperimen menggabungkan hierarki yang terstrukur dengan flat tagging untuk membantu pengambilan informasi.
Contoh :
Blog
Banyak dari sistem blog yang mengizinkan pembuatnya untuk menambah free-form tags di dalam postingan sekaligus menempatkan postingan ke dalam kategori. Contohnya,sebuah postingan dapat ditampilkan pada sesuatu yang sudah ditandai (tagging) dengan istilah baseball atau tickets.
Masing-masing dari label ini biasanya adalah sebuah link situs yang mengarah ke sebuah halaman daftar index yang berisi segala sesuatu yang berhubungan dengan label tersebut. Blog biasanya mempunyai sebuah sidebar yang berisi daftar semua label yang sudah digunakan dalam blog tersebut dan setiap label mengarah ke sebuah halaman index.
Untuk mengklasifikasi ulang sebuah post,pembuatnya dapat mengubah daftar label. Semua hubungan antara postingan akan secara otomatis dilacak dan diperbaharui oleh software blog. Tidak diperlukan lagi merelokasi halaman dengan kategori hierarki yang rumit.
For an event
Official label adalah kata kunci yang diadopsi dari peristiwa dan konferensi bagi para peserta yang melakukan publikasi di situs mereka, seperti catatan blog, foto acara atau peristiwa, dan slide presentasi. Mesin pencari dapat mengindeksi hal-hal tersebut untuk membuat bahan-bahan yang lebih relevan dan berhubungan dengan peristiwa yang dicari. Dalam kasus ini, label adalah bagian dari controlled vocabulary.12.
Tipe Khusus
Triple tags
Triple tags atau mesin tag menggunakan sintaksis special untuk mendefinisikan informasi semantik tambahan tentang label, sehingga menjadi lebih mudah atau lebih bermakna dalam melakukan penafsiran dengan program komputer.
Triple tags terdiri dari 3 bagian : tempat nama (namespace), predikat, dan nilai. Contohnya : “geo:panjang = 50.123456 adalah label untuk bujur koordinat geografis yang bernilai 50.123456. Struktur berlapis tiga ini serupa dengan model Kerangka Deskripsi Sumber (Resource Description Framework) untuk informasi. Format Triple Tags pertama kali diciptakan untuk “Geolicious” pada November 2004 untuk memetakan Delicious bookmark dan mampu memperoleh penerimaan yang lebih luas setelah diadopsi oleh Mappr dan GeoBloggers untuk foto-foto Flickr.
Pada Januari 2007, Aaron Straup Cope di Flickr memperkenalkan istilah mesin tag sebagai alternatif nama dari triple tags, dan menambahkan beberapa pertanyaan dan jawaban tentang tujuannya, sintaksis dan kegunaan.
Spesialis metadata untuk identifikasi geografis dikenal dengan nama geotagging. Mesin tag juga digunakan untuk tujuan yang lainnya, seperti mengidentifikasi foto yang diambil dari peristiwa tertentu atau pemberian nama jenis menggunakan binomial nomenclature.
Hash tags
            Pesan singkat dalam layanan seperti Twitter atau identi.ca dapat ditandai dengan memasukkan satu atau beberapa hash tag. Hash tag adalah kata-kata dan frasa yang diawali dengan simbol hash (#), dengan beberapa kata yang menyambung, seperti : #ESue346022 is my favorite PC game. Dengan menggunakan simbol hash di depan Esue346022, orang-orang dapat mencari isitilah #ESue346022 tersebut. Kata-kata yang di beri label ini akan muncul di hasil mesin pencari.
Hash tag ini juga muncul dalam sejumlah trending topik, termasuk muncul di halaman depan Twitter sendiri. Salah satu fenomena khusus untuk ekosistem Twitter adalah mikro-meme yakni sesuatu yang tiba-tiba menjadi topik karena dibuat dan dibicarakan dalam hash tag. Hash tag tersebut dibuat dan digunakan dalam beberapa hari dan kemudian akan menghilang. Contoh : #getwellssoonjjong #goodmusic #JustinBieber adalah mikro-meme yang popular pada pertengahan tahun 2010.
Star tags
Star Tags adalah cara bagi pengguna untuk menetapkan rating numerik ke dalam posting mereka. Star Tags diawali dengan tanda bintang “*” dan diberi nilai numerik dari 0 sampai 9 berdasarkan rating pengguna. Konsep ini mirip dengan konsep yang digunakan dalam sistem peringkat Yelp atau Amazon, dan dapat digunakan juga pada berbagai layanan seperti Twitter atau Facebook misalnya ketika membahas tentang sesuatu hal atau lokasi. Contoh : Baru saja menonton #inception benar-benar film yang bagus! *9 atau Mencoba kedai kopi baru di Kober... mereka perlu menambah persediaan gula *1.
Keuntungan dan Kerugian
Dalam tipikal sistem tagging tidak ada informasi yang eksplisit tentang makna atau semantik dari setiap label. Pengguna dapat menggunakan label baru untuk item dan caranya semudah menggunakan label lama. Sistem klasifikasi hierarki mengalami perubahan yang sangat lambat, sistem ini berakar pada budaya serta zaman yang menciptakan mereka. Fleksibilitas penandaan (tagging) memungkinkan pengguna untuk mengklasifikasikan koleksi item mereka. Berbagai istilah pribadi dapat menyajikan tantangan ketika mencari informasi atau browsing.
Ketika pengguna dapat bebas memilih label (menciptakan folksonomi dan tidak memilih istilah dari controlled vocabulary), metadata yang dihasilkan menjadikan homonim (label yang sama, arti berbeda) dan sinonim (beberapa label untuk konsep yang sama). Hal ini menyebabkan hubungan yang tidak tepat antara item dan pencarian informasi tentang subjek yang menjadikannya tidak efisien.
Contoh : label "orange" dapat merujuk pada buah atau warna. Contoh lainnya item yang terkait sistem operasi Apple mungkin ditandai atau di label sebagai "Mac OS X "," Leopard "," software ", atau berbagai istilah lainnya. Pengguna juga dapat memilih label yang berbeda dengan kata-kata yang mengalami infleksi (tunggal dan jamak), yang dapat mengakibatkan kesulitan navigasi jika sistem tidak termasuk berasal dari label yang dicari.
Folksonomi yang berskala besar mengalamatkan beberapa masalah tagging .Pengguna sistem tagging cenderung melihat penggunaan "istilah label" di dalam sistem ini. Dengan demikian menggunakan label yang sudah ada akan mempermudah koneksi ke item terkait. Dengan cara ini, kolektif folksonomi akan mengembangkan sebagian perangkat dari konvensi penandaan (tagging).
Sistem Kompleks Dinamik
Meskipun kekurangan kontrol dan kurang kejelasan, penelitian telah menunjukkan bahwa bentuk sederhana dari kosa kata bersama muncul dalam sistem social bookmarks. Kolaborasi penandaan (collaborative tagging) menunjukkan bentuk dinamika sistem yang kompleks (atau dinamika self organizing). Jadi, meskipun tidak ada pengontrolan kosa kata terpusat yang membatasi tindakan pengguna, distribusi label yang menggambarkan sumber daya yang berbeda (misalnya, situs) akan menyatu dari waktu ke waktu untuk menstabilkan distribusi power law. Setelah distribusi tersebut stabil, kosakata sederhana dapat diekstraksi dengan memeriksa korelasi yang terbentuk antara label yang berbeda.
Spamming
Sistem penandaan (tagging) yang terbuka untuk umum juga terbuka untuk label spam, di mana orang menggunakan sejumlah besar label atau beberapa label yang tidak terkait ke item (seperti video YouTube) dengan tujuan untuk menarik penonton. Penyalahgunaan seperti ini dapat dikurangi dengan menggunakan identifikasi manusia atau statistik dari item spam tersebut. Cara lain adalah dengan membatasi jumlah tag yang dapat diumumkan.
Sistem Deducible Tags
Isu lain yang mungkin timbul dengan penandaan pengguna akhir (end-user tagging), adalah pengguna menandai (tagging) dengan label yang deducible oleh software (Deducible Tags). Label tersebut tidak hanya berpotensi berlebihan, tetapi mungkin juga menimbulkan ketidak akuratan dibandingkan dengan membiarkan sebuah sistem identifikasi otomatis menandai entitas-entitas yang ada. Misalnya dalam permainan catur, akan sangat berguna jika mendorong pengguna akhir untuk menandai game dengan nama pembuka karena mereka akan deducible dari beberapa langkah pertama. Sistem yang secara otomatis memasang label nama pembuka juga dapat mempertimbangkan transposisi dan problem lainnya. Tujuannya adalah agar lebih akurat mengidentifikasi nama pembuka permainan catur tersebut.


Sintaksis
Beberapa sistem penandaan atau sistem tagging menyediakan kotak teks untuk memasukkan label, sehingga untuk dapat tokenize string, alat pemisah harus digunakan. Dua pemisah yang populer adalah karakter spasi dan koma. Untuk mengaktifkan penggunaan pemisah dalam label, sistem memungkinkan pemisah yang mempunyai tingkat lebih tinggi (seperti tanda kutip) atau karakter “escape”. Sistem dapat menghindari penggunaan pemisah dengan hanya memperbolehkan satu label yang akan ditambahkan ke masing-masing widget input pada suatu waktu, meskipun ini akan menambah label-label lainnya dan menambah waktu.
Sebuah sintaksis yang digunakan dalam HTML menggunakan nilai atribut rel "tag" (yaitu, rel = "tag") untuk menunjukkan keterkaitan halaman situs tersebut sebagai label yang sesuai dengan konteksnya.

Posting Komentar untuk "CLUSTERING"