CLUSTERING
Information Retrieval atau sistem temu balik informasi adalah sebuah
sistem yang digunakan untuk menemukan kembali informasi-informasi yang relevan
terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis.
Aplikasi umum dari sistem temu balik informasi adalah search engine atau
mesin pencarian yang ada pada jaringan internet.
Salah satu metode yang
terdapat pada information retrieval adalah Clustering. Clustering adalah
fenomena dimana search engine mendata dua atau lebih halaman sebuah web
dengan sebuah query pencarian.
Clustering dalam IR
Konsep Dasar Clustering
Clustering
merupakan proses pembagian (partisi) atau pengelompokan data. Menurut Jyoti
Bora dan Kumar Gupta (2014: 108), clustering adalah
suatu proses pembagian elemen-elemen data ke dalam kelompok yang berbeda
(disebut sebagai cluster) sedemikian rupa
sehingga elemen-elemen data dalam suatu kelompok memiliki kesamaan yang tinggi
dan elemen-elemen data pada kelompok tersebut berbeda dengan elemen-elemen yang
berada dalam kelompok lain.
Istilah
“kesamaan” yang dimiliki elemen-elemen data harus dipahami sebagai kesamaan
secara matematis, dimana ukurannya dapat didefinisikan dengan baik. Kesamaan
dapat juga didefinisikan sebagai ukuran jarak. Jarak dapat diukur dari vektor
data itu sendiri atau sebagai sebuah jarak dari sebuah vektor data terhadap
pusat cluster (Babuska, 2009: 60). Pusat cluster
biasanya tidak diketahui sebelumnya. Pusat cluster
akan terlihat ketika algoritma clustering telah
disimulasikan untuk pembagian data. Algoritma clustering
tidak hanya ditunjukkan bagaimana bentuk dan isi dari tiap cluster,
tetapi juga dengan relasi dan jarak antar cluster.
Menurut
Babuska (2009: 61), secara umum metode clustering dibedakan
menjadi dua yaitu clustering klasik dan fuzzy
clustering. Metode clustering klasik (atau
disebut juga sebagai hard clustering) didasarkan
pada teori himpunan klasik yang menunjukan apakah suatu objek merupakan anggota
atau bukan anggota dari suatu cluster. Clustering
klasik bertujuan untuk membagi atau mempartisi (partitioning)
data ke dalam suatu kelompok (cluster) secara eksklusif.
Artinya apabila suatu elemen data telah menjadi anggota dari satu cluster,
maka elemen tersebut tidak mungkin menjadi anggota dari cluster
yang lain.
Berbeda
dengan clustering klasik yang mempartisi data ke dalam
suatu cluster secara eksklusif, metode fuzzy
clustering memungkinkan suatu objek menjadi anggota dari beberapa cluster
secara bersamaan dengan derajat keanggotaan yang berbeda. Setiap objek dalam
suatu cluster tidak dibatasi secara tegas menjadi anggota cluster
tersebut melainkan ditentukan oleh derajat keanggotaan yaitu antara 0 sampai
dengan 1. Derajat keanggotaan tersebut yang akan mengindikasikan keberadaan
suatu objek pada suatu cluster, dimana semakin besar
derajat keanggotaan suatu objek dalam suatu cluster,
maka semakin dekat objek tersebut dengan pusat clusternya.
Hal ini berarti suatu objek akan cenderung menjadi anggota suatu cluster
yang memiliki derajat keanggotaan yang paling besar.
Pada pengertian
clustering, telah disebutkan bahwa
elemen-elemen/objek-objek yang berada dalam satu cluster memiliki
kesamaan yang tinggi dan berbeda dengan elemen-elemen/objek-objek yang ada pada
cluster lainnya. Artinya, setiap objek dalam satu cluster
akan bersifat sama dalam karakteristik tertentu, dan berbeda dengan
objek-objek yang berada pada cluster lain dalam
karakteristik yang sama. Hal ini menunjukan bahwa suatu cluster
mempunyai kedudukan yang saling bebas dengan cluster
yang lainnya, yang berarti suatu cluster tidak
berpengaruh terhadap cluster yang lain dalam hal
kesamaan karakteristik yang dimilikinya.
Pengertian Clustering
Clustering
adalah suatu metode pengelompokan berdasarkan ukuran kedekatan (kemiripan).
Clustering berbeda dengan group, group berarti kelompok yang sama. Tetapi,
cluster tidak harus sama akan tetapi pengelompokannya berdasarkan pada
kedekatan dari suatu karakteristik sample yang ada, salah satunya dengan
menggunakan rumus jarak ecluidean. Aplikasinya cluster ini sangat banyak,
karena hampir dalam mengidentifikasi permasalahan atau pengambilan keputusan
selalu tidak persis akan tetapi cenderung memiliki kemiripan saja.
Menurut
Johnson (2002: 670), jarak Euclid merupakan
tipe pengukuran jarak dalam analisis Cluster yang paling umum digunakan untuk
mengukur jarak dari obyek data ke pusat cluster. Jarak Euclid merupakan jarak
geometris antar dua obyek data. Semakin dekat jarak maka semakin mirip suatu
obyek data tersebut.
Information retrieval
Situs
web di internet berjumlah miliaran.
Ketika di-query, mesin pencari akan memberikan hasil ribuan halaman.
Teknik pengelompokan dapat digunakan untuk mengelompokkan hasil halaman yang
diberikan mesin pencari ke dalam kelompok yang
lebih kecil di
mana setiap kelompok
berisi halaman yang
berkarakteristik sama atau mirip. Misalnya, dengan kata kunci query
“movie” dapat diberikan hasil halaman yang dibedakan dalam kategori seperti
“genre”, “star”,”theaters”, dan sebagainya. Setiap kategori dapat dipecah kembali menjadi
subkategori yang membentuk hierarki sehingga membantu pengguna mengeksplolrasi
hasil query.
Clustering data dapat dibedakan
menjadi dua tujuan (Tanet al, 2006)
Yaitu
clustering untuk pemahaman dan clustering untuk pengguna. Jika tujuan untuk
pemahaman maka cluster yang tidak terbentuk harus menagkap struktur alami data.
Biasanya proses clustering dan tujuan ini hanya sebagai proses awal untuk
kemudian dilanjutkan dengan pekerjaan ini seperti summarization (rata-rata,
standar deviasi), pelabelan kelas pada setiap kelompok untuk kemudian digunakan
sebagai data latih klasifikasi, dan sebagainya.
Sementara
jika tujuannya untuk pengguna, biasanya itu tujuan utama untuk mencari
prototype cluster yng paling representative terhadap data dan
memberikan abstraksi dan setiap objek data
dalam cluster di mana sebuah
data terletak didalamnya. Banyak
metode clustering yang sudah dikembangkan
oleh para ahli. Masing –masing metode mempunyai
karakter, kelebihan, dan kekurangan. Clustering dapat dibedakan menurut
stuktur cluster, keanggotaan data
dalam cluster dan kekompakan data
dalam cluster. Metode clustering menurut
strukturnya dibagi menjadi
dua yaitu pengelompokan hirarki dan partitioning.
Pengelompokan hirarki memiliki aturan satu data tunggal bisa dianggap
sebagai sebuah kelompok, dua
atau lebih kelompok
kecil dapat bergabung menjadi satu kelompok besar dan
begitu seterusnya hingga semua data dapat bergabung menjadi satu kelompok.
Metode clustering hirarki merupakan satu-satunya metode yang masuk kedalam
kategori pengelompokan hirarki. Metode
clustering partitioning membagi set data
kedalam sejumlah kelompok
yang tidak tumpang
tindih (overlap) antara satu
kelompok dengan kelompok
yang lain artinya
setiap data hanya
menjadi anggota satu kelompok. Metode seperti K-Means dan DBSCAN masuk
dalam kategori pengelompokan partitioning. Metode clustering menurut
keanggotaan dalam kelompok dibagi menjadi dua, yaitu eksklusif dan
tumpang-tindih. Metode tersebut termasuk kategori eksklusif jika
sebuah data hanya menjadi
anggota satu kelompok
dan tidak menjadi
anggota kelompok yang lain.
Menurut kategori
kekompakan terbagi menjadi
dua yaitu komplet dan
parsial. Semua data bisa
dikatakan kompak menjadi satu kelompok jika semua data bisa bergabung menjadi
satu (dalam konteks penyekatan) namun
jika ada sedikit data
yang tidak ikut
bergabung dalam kelompok
mayoritas data tersebut dikatakan mempunyai
perilaku menyimpang. Data
yang menyimpang ini
dikenal dengan sebutan noise.
Teorema K-Means
Clustering
K-Means
Clustering K-Means
Algoritma K-Means merupakan algoritma pengelompokan iterative yang
melakukanpartisi set data ke dalam sejumlah K cluster yang sudah ditetapkan di
awal. Algoritma K-Means sederhana
untuk diimplemtasikan dan
dijalankan, relative cepat, mudah
beradaptasi, umum penggunaannya
dalam praktek. Secara historis,
K-Means menjadi salah satu algoritma yang
paling penting dalam
bidang data mining (Wu dan Kumar, 2009). K-Means merupakan salah
satu metode data clustering non hirarki
yang berusaha mempartisi data yang
ada ke dalam
bentuk satu atau
lebih cluster atau kelompok.
Tujuan Clustering K-Means
Tujuan
pekerjaan pengelompokan (clustering) data dapat
dibedakan menajadi dua,
yaitu pengelompokan untuk
pemahaman dan pengelompokan
untuk penggunaan. Jika tujuannya
untuk pemahaman, kelompok yang terbentuk harus menangkap struktur alami data,
bisanya proses pengelompokan dalam tujuan ini hanya sebagai proses awal untuk
kemudian dilanjutkan dengan pekerjaan inti seperti peringkasan atau
summarization (rata–rata, standart deviasi), pelabelan kelas pada setiap
kelompok untuk kemudian digunakan sebagai
data latih klasifikasi,
dan sebagainya.
Langkah Clustering K-Means Proses
clustering dengan menggunakan algoritma K-Means memiliki langkah-langkah
sebagai berikut:
a. Inisialisasi:
tentukan K sebagai jumlah cluster yang diinginkan dan metric ketidakmiripan
(jarak) yang diinginkan. Jika perlu, tetapkan ambang batas perubahan fungsi
objektif dan ambang batas perubahan centroid.
b. Pilih K databaru set data X sebagai
centroid.
c. Alokasikan
semua data kecentroidterdekat dengan metric jarak yang sudah ditetapkan
(memperbaharui ID setiap data).
d. Hitung
kembali centroid C berdasarkan data yang mengikuti cluster masing-masing.
e. Ulangi
langkah tiga dan empat hingga kondisi konvergen tercapai, yaitu (a) perubahan
fungsi objektif sudah dibawah ambang batas yang diinginkan; atau (b) tidak ada
data yang berpindah cluster ; atau (c) perubahan posisi centroid sudah dibawah
ambang batas yang ditetapkan
Hierarchiral Clustering
Beberapa
teknik clustering hirarki bekerja dengan sederetan dari penggabungan yang
berurutan atau sederetan dari pembagian yang berurutan. Metode hirarki
agglomerative
berawal dari
objek-objek individual. Jadi pada awalnya banyaknya cluster samadengan
banyaknya objek. Pertama-tama objek-objek yang paling mirip dikelompokkan, dan
kelompok-kelompok awal ini digabungkan sesuai dengan kemiripannya. Akhirnya,
sewaktu kemiripan berkurang, semua sub kelompok digabungkan menjadi satu
cluster tunggal.
Hasil-hasil
dari metode agglomerative dan metode divisive bisa
ditampilkan
dalam bentuk diagram yang disebut dendrogram. Akan kita lihat bahwa dendrogram menggambarkan
penggabungan atau pembagian
yang akan
dibuat pada tingkat-tingkat
yang
berurutan.
Hasil-hasil
dari clustering linkage dapat disajikan secara grafik dalam bentuk dendrogram
atau diagram pohon. Cabang-cabang dalam pohon menyajikan cluster. Kemudian
cabang-cabang bergabung pada node yang posisinya sepanjang sumbu jarak
(similaritas) menyatakan tingkat dimana penggabungan terjadi.
Langkah-langkah dalam algoritma clustering hirarki
agglomerative untuk mengelompokkan N objek
(item/variabel):
1.Mulai
dengan N cluster, setiap cluster
mengandung entiti tunggal dan sebuah matriks simetrik dari jarak (similarities)
D= {dik} dengan tipe NxN.
2.Cari
matriks jarak untuk pasangan cluster yang terdekat (paling mirip). Misalkan
jarak antara cluster U dan V yang paling mirip adalah duv.
3.Gabungkan
cluster U dan V. Label cluster
yang baru dibentuk dengan (UV).
Update entries pada matrik jarak dengan cara :
a.Hapus baris dan kolom yang bersesuaian dengan
cluster U dan V
b.Tambahkan
baris dan kolom yang memberikan jarak-jarak antara cluster (UV) dan cluster-cluster yang tersisa.
4.Ulangi
langkah 2 dan 3 sebanyak (N-1) kali.
(Semua objek akan berada dalam cluster tunggal setelah algoritma berahir).
Catat identitas dari cluster yang digabungkan dan tingkat-tingkat (jarak atau
similaritas) di mana penggabungan terjadi.
Metode-Metode Cluster Hirarki
Metode Single-linkage
Input untuk
algoritma single linkage bisa berwujud jarak atau similarities antara
pasangan-pasangan dari objek-objek. Kelompok-kelompok dibentuk dari entities
individu dengan menggabungkan jarak paling pendek atau similarities (kemiripan)
yang paling besar. Pada awalnya, kita harus menemukan jarak terpendek dalam D=
{dik} dan menggabungkan objek-objek
yang bersesuaian misalnya, U dan V, untuk mendapatkan cluster (UV). Untuk langkah (3) dari algoritma di
atas jarak-jarak antara (UV) dan
cluster W
yang lain
dihitung dengan cara
d( UV )
W = min{ dUW,dVW
} (1)
Disini
besaran-besaran dUW dan dVW berturut-turut adalah jarak
terpendek antara cluster-cluster U
dan W dan juga cluster-cluster V dan W.
Metode Complete-linkage
Complete
linkage memberikan kepastian bahwa
semua item-item dalam satu cluster berada dalam jarak paling jauh ( similaritas
terkecil) satu sama lain. Algoritma
aglomerative pada umumnya dimulai dengan menentukan entri (elemen matriks)
dalam D= {dik} dan menggabungkan objek-objek yang bersesuaian misalnya U dan V untuk mendapatkan cluster (UV).
Untuk langkah (3) dari algoritma di atas jarak-jarak antara cluster (UV) dan
cluster Wyang lain dihitung dengan cara
d( UV ) W = maks{ dUW,dVW
} (2)
Di sini
besaran-besaran dUW dan dVW
berturut-turut adalah jarak antara tetangga terdekat cluster-cluster U dan W dan juga cluster-cluster V
dan W.
Metode Average-linkage
Average
linkage memperlakukan jarak antara dua cluster sebagai jarak rata-rata antara
semua pasangan item-item di mana satu anggota dari pasangan tersebut kepunyaan
tiap cluster. Mulai dengan mencari matriks jarak D={dik} untuk memperoleh objek-objek paling dekat (paling mirip)
misalnya U dan V. Objek-objek ini
digabungkan untuk membentuk cluster (UV).
Untuk langkah (3) dari algoritma di atas jarak-jarak antara(UV) dan cluster W yang lain ditentukan oleh
d( UV ) W = (3)
di mana dik adalah jarak antara objek
i dalam cluster (UV) dan objek k dalam
cluster W, dan Nuv dan Nw berturut-turut
adalah banyaknya item-item dalam cluster (UV)
dan W.
Labeling
Pengertian Labeling (bahasa
Inggris: Tag) adalah penanda.
Dalam
sistem online komputer,label (tag) adalah kata kunci non hierarki atau tidak
bertingkat yang tugasnya adalah menunjukkan potongan-potongan informasi
(seperti petunjuk internet,gambar digital,atau file komputer). Label merupakan
jenis metadata yang membantu untuk menjelaskan suatu hal dan memungkinkan hal
tersebut ditemukan ketika melakukan pencarian (browsing).
Label
umumnya dipilih langsung secara informal oleh pembuat item atau penampil
item,tergantung pada sistem. Istilah penandaan (tagging) dipopulerkan oleh
situs yang berhubungan dengan Web 2.0 dan menjadi fitur penting di banyak
layanan Web 2.0. Tagging sekarang juga menjadi bagian dari software desktop.
Sejarah dan Konteks
Penandaan
atau pelabelan berfungsi untuk membantu mengklasifikasi, menandai kepemilikan,
mencatat batasan, dan menunjukkan identitas online. Penandaan atau pelabelan
dapat menggunakan tanda identifikasi yakni melalui bentuk kata-kata atau
gambar.
Contoh
penganalogian label dalam bentuk fisik di dunia ini adalah coretan ( grafiti )
dan pemberian tanda pada objek “museum”. Dalam organisasi informasi, fungsi
tekstual dari kata kunci (keywords) adalah sebagai bagian dari identifikasi dan
klasifikasi yang muncul sebelum komputer ada. Sekarang pencarian berbasis
komputer menggunakan fungsi kata kunci sebagai cara cepat dalam mencari data
yang tersimpan. Database online dan internet serta situs awal digunakan
penerbit untuk membantu penggunanya mencari konten yang diinginkan.
Pada
tahun 2003, website social bookmarking Delicious memberikan cara bagi
penggunanya untuk menambahkan tag atau label pada bookmarks mereka yang
nantinya juga mempermudah penggunanya dalam proses pencarian item. Delicious
juga menyediakan tampilan agregat browseable dari bookmark semua pengguna yang
menampilkan label tertentu.
Flickr
memungkinkan penggunanya secara bebas menambahkan free-form tags pada
masing-masing gambar, membangun metadata yang fleksibel dan mudah. Hal inilah
yang membuat gambar-gambar mereka sangat dicari. Kesuksesan dari Flickr dan
pengaruh Delicious memopulerkan konsep free-form tags dan situs sosial software
lainnya seperti YouTube, Technorati, dan Last.fm yang juga menggunakan konsep
tagging. Pada Gmail ada yang dinamakan “Labels” yang serupa dengan Tags.
Penggambaran
semua label dalam situs atau blog disebut dengan kosmos label atau awan label.
Label yang dibuat para pengguna ini berguna untuk para pengguna itu sendiri dan
untuk komunitas yang lebih besar dari pengguna situs.
Tags
bisa dikatakan berada dalam tipe klasifikasi bottom-up, berbeda dengan hierarki
yang ada di klasifikasi top-down . Dalam sistem hierarki tradisional
(taxonomy), perancang menetapkan sejumlah istilah yang digunakan untuk
melakukan klasifikasi dan hanya ada satu isitilah yang benar untuk
mengklasifikasikan setiap item.
Dalam
sistem penandaan atau tagging, ada banyak cara yang tidak terbatas dalam
mengklasifikasikan item yang ada dan tidak ada kata salah pilih. Karena
item-item yang ada tidak berada di dalam sebuah kategori, satu item dapat
memiliki beberapa tags yang berbeda. Beberapa peneliti dan aplikasinya telah
bereksperimen menggabungkan hierarki yang terstrukur dengan flat tagging untuk
membantu pengambilan informasi.
Contoh :
Blog
Banyak
dari sistem blog yang mengizinkan pembuatnya untuk menambah free-form tags di
dalam postingan sekaligus menempatkan postingan ke dalam kategori.
Contohnya,sebuah postingan dapat ditampilkan pada sesuatu yang sudah ditandai
(tagging) dengan istilah baseball atau tickets.
Masing-masing
dari label ini biasanya adalah sebuah link situs yang mengarah ke sebuah
halaman daftar index yang berisi segala sesuatu yang berhubungan dengan label
tersebut. Blog biasanya mempunyai sebuah sidebar yang berisi daftar semua label
yang sudah digunakan dalam blog tersebut dan setiap label mengarah ke sebuah
halaman index.
Untuk
mengklasifikasi ulang sebuah post,pembuatnya dapat mengubah daftar label. Semua
hubungan antara postingan akan secara otomatis dilacak dan diperbaharui oleh
software blog. Tidak diperlukan lagi merelokasi halaman dengan kategori
hierarki yang rumit.
For an event
Official
label adalah kata kunci yang diadopsi dari peristiwa dan konferensi bagi para
peserta yang melakukan publikasi di situs mereka, seperti catatan blog, foto
acara atau peristiwa, dan slide presentasi. Mesin pencari dapat mengindeksi
hal-hal tersebut untuk membuat bahan-bahan yang lebih relevan dan berhubungan
dengan peristiwa yang dicari. Dalam kasus ini, label adalah bagian dari controlled
vocabulary.12.
Tipe Khusus
Triple tags
Triple
tags atau mesin tag menggunakan sintaksis special untuk mendefinisikan
informasi semantik tambahan tentang label, sehingga menjadi lebih mudah atau
lebih bermakna dalam melakukan penafsiran dengan program komputer.
Triple
tags terdiri dari 3 bagian : tempat nama (namespace), predikat, dan nilai.
Contohnya : “geo:panjang = 50.123456 adalah label untuk bujur koordinat
geografis yang bernilai 50.123456. Struktur berlapis tiga ini serupa dengan
model Kerangka Deskripsi Sumber (Resource Description Framework) untuk
informasi. Format Triple Tags
pertama kali diciptakan untuk “Geolicious” pada November 2004 untuk memetakan
Delicious bookmark dan mampu memperoleh penerimaan yang lebih luas setelah
diadopsi oleh Mappr dan GeoBloggers untuk foto-foto Flickr.
Pada
Januari 2007, Aaron Straup Cope di Flickr memperkenalkan istilah mesin tag
sebagai alternatif nama dari triple tags, dan menambahkan beberapa pertanyaan
dan jawaban tentang tujuannya, sintaksis dan kegunaan.
Spesialis
metadata untuk identifikasi geografis dikenal dengan nama geotagging. Mesin tag
juga digunakan untuk tujuan yang lainnya, seperti mengidentifikasi foto yang
diambil dari peristiwa tertentu atau pemberian nama jenis menggunakan binomial
nomenclature.
Hash tags
Pesan singkat dalam layanan seperti
Twitter atau identi.ca dapat ditandai dengan memasukkan satu atau beberapa hash
tag. Hash tag adalah kata-kata dan frasa yang diawali dengan simbol hash (#),
dengan beberapa kata yang menyambung, seperti : #ESue346022 is my favorite PC
game. Dengan menggunakan simbol hash di depan Esue346022, orang-orang dapat
mencari isitilah #ESue346022 tersebut. Kata-kata yang di beri label ini akan
muncul di hasil mesin pencari.
Hash
tag ini juga muncul dalam sejumlah trending topik, termasuk muncul di halaman
depan Twitter sendiri. Salah satu fenomena khusus untuk ekosistem Twitter
adalah mikro-meme yakni sesuatu yang tiba-tiba menjadi topik karena dibuat dan
dibicarakan dalam hash tag. Hash tag tersebut dibuat dan digunakan dalam
beberapa hari dan kemudian akan menghilang. Contoh : #getwellssoonjjong
#goodmusic #JustinBieber adalah mikro-meme yang popular pada pertengahan tahun
2010.
Star tags
Star
Tags adalah cara bagi pengguna untuk menetapkan rating numerik ke dalam posting
mereka. Star Tags diawali dengan tanda bintang “*” dan diberi nilai numerik
dari 0 sampai 9 berdasarkan rating pengguna. Konsep ini mirip dengan konsep
yang digunakan dalam sistem peringkat Yelp atau Amazon, dan dapat digunakan
juga pada berbagai layanan seperti Twitter atau Facebook misalnya ketika
membahas tentang sesuatu hal atau lokasi. Contoh : Baru saja menonton
#inception benar-benar film yang bagus! *9 atau Mencoba kedai kopi baru di
Kober... mereka perlu menambah persediaan gula *1.
Keuntungan dan Kerugian
Dalam
tipikal sistem tagging tidak ada informasi yang eksplisit tentang makna atau
semantik dari setiap label. Pengguna dapat menggunakan label baru untuk item
dan caranya semudah menggunakan label lama. Sistem klasifikasi hierarki
mengalami perubahan yang sangat lambat, sistem ini berakar pada budaya serta
zaman yang menciptakan mereka. Fleksibilitas penandaan (tagging) memungkinkan
pengguna untuk mengklasifikasikan koleksi item mereka. Berbagai istilah pribadi
dapat menyajikan tantangan ketika mencari informasi atau browsing.
Ketika
pengguna dapat bebas memilih label (menciptakan folksonomi dan tidak memilih
istilah dari controlled vocabulary), metadata yang dihasilkan menjadikan
homonim (label yang sama, arti berbeda) dan sinonim (beberapa label untuk
konsep yang sama). Hal ini menyebabkan hubungan yang tidak tepat antara item
dan pencarian informasi tentang subjek yang menjadikannya tidak efisien.
Contoh
: label "orange" dapat merujuk pada buah atau warna. Contoh lainnya
item yang terkait sistem operasi Apple mungkin ditandai atau di label sebagai
"Mac OS X "," Leopard "," software ", atau
berbagai istilah lainnya. Pengguna juga dapat memilih label yang berbeda dengan
kata-kata yang mengalami infleksi (tunggal dan jamak), yang dapat mengakibatkan
kesulitan navigasi jika sistem tidak termasuk berasal dari label yang dicari.
Folksonomi
yang berskala besar mengalamatkan beberapa masalah tagging .Pengguna sistem
tagging cenderung melihat penggunaan "istilah label" di dalam sistem
ini. Dengan demikian menggunakan label yang sudah ada akan mempermudah koneksi
ke item terkait. Dengan cara ini, kolektif folksonomi akan mengembangkan
sebagian perangkat dari konvensi penandaan (tagging).
Sistem Kompleks Dinamik
Meskipun
kekurangan kontrol dan kurang kejelasan, penelitian telah menunjukkan bahwa
bentuk sederhana dari kosa kata bersama muncul dalam sistem social bookmarks.
Kolaborasi penandaan (collaborative tagging) menunjukkan bentuk dinamika sistem
yang kompleks (atau dinamika self organizing). Jadi, meskipun tidak ada
pengontrolan kosa kata terpusat yang membatasi tindakan pengguna, distribusi
label yang menggambarkan sumber daya yang berbeda (misalnya, situs) akan
menyatu dari waktu ke waktu untuk menstabilkan distribusi power law. Setelah
distribusi tersebut stabil, kosakata sederhana dapat diekstraksi dengan
memeriksa korelasi yang terbentuk antara label yang berbeda.
Spamming
Sistem
penandaan (tagging) yang terbuka untuk umum juga terbuka untuk label spam, di
mana orang menggunakan sejumlah besar label atau beberapa label yang tidak
terkait ke item (seperti video YouTube) dengan tujuan untuk menarik penonton.
Penyalahgunaan seperti ini dapat dikurangi dengan menggunakan identifikasi
manusia atau statistik dari item spam tersebut. Cara lain adalah dengan
membatasi jumlah tag yang dapat diumumkan.
Sistem Deducible Tags
Isu
lain yang mungkin timbul dengan penandaan pengguna akhir (end-user tagging),
adalah pengguna menandai (tagging) dengan label yang deducible oleh software
(Deducible Tags). Label tersebut tidak hanya berpotensi berlebihan, tetapi
mungkin juga menimbulkan ketidak akuratan dibandingkan dengan membiarkan sebuah
sistem identifikasi otomatis menandai entitas-entitas yang ada. Misalnya dalam
permainan catur, akan sangat berguna jika mendorong pengguna akhir untuk
menandai game dengan nama pembuka karena mereka akan deducible dari beberapa
langkah pertama. Sistem yang secara otomatis memasang label nama pembuka juga
dapat mempertimbangkan transposisi dan problem lainnya. Tujuannya adalah agar
lebih akurat mengidentifikasi nama pembuka permainan catur tersebut.
Sintaksis
Beberapa
sistem penandaan atau sistem tagging menyediakan kotak teks untuk memasukkan
label, sehingga untuk dapat tokenize string, alat pemisah harus digunakan. Dua
pemisah yang populer adalah karakter spasi dan koma. Untuk mengaktifkan
penggunaan pemisah dalam label, sistem memungkinkan pemisah yang mempunyai
tingkat lebih tinggi (seperti tanda kutip) atau karakter “escape”. Sistem dapat
menghindari penggunaan pemisah dengan hanya memperbolehkan satu label yang akan
ditambahkan ke masing-masing widget input pada suatu waktu, meskipun ini akan
menambah label-label lainnya dan menambah waktu.
Sebuah
sintaksis yang digunakan dalam HTML menggunakan nilai atribut rel
"tag" (yaitu, rel = "tag") untuk menunjukkan keterkaitan
halaman situs tersebut sebagai label yang sesuai dengan konteksnya.
Posting Komentar untuk "CLUSTERING"