Web Search
Konsep Dasar
Web Search
Pengertian
mesin pencarian
Mesin pencari atau search engine
adalah website yang mengumpulkan dan mengorganisir konten dari seluruh bagian
internet. Untuk menggunakannya, Anda tinggal memasukkan apa yang ingin Anda
cari dan mesin pencari akan memberikan Anda berbagai link ke konten yang sesuai
dengan apa yang dicari. Hasil halaman pencarian, biasa disebut search engine results page atau SERP,
memberikan hasil kepada Anda dari konten yang paling relevan sampai tidak. Cara mesin pencari menentukan
ranking memang berbeda-beda.
Mesin pencari juga suka
mengubah-ubah algoritma untuk meningkatkan user experience. Setiap search
engine bertujuan untuk mengerti bagaimana users menggunakan search engine dan
memberi mereka jawaban yang terbaik untuk pencarian mereka. Dengan begitu,
search engine bisa memberikan jawaban yang berkualitas tinggi dan paling
relevan.
Cara kerja mesin pencarian
Mesin pencari menggunakan program yang sering disebut dengan
istilah spiders, robots, atau crawlers untuk mencari konten dari seluruh sudut
internet. Hasil-hasil pencarian crawler ini kemudian digunakan mesin pencari
untuk membangun index internet.
Sebagian besar mesin pencari akan memberi tahu Anda tentang cara
meningkatkan peringkat halaman Anda di halaman hasil pencarian, algoritma yang
mereka gunakan dijaga dengan baik dan sering berubah untuk menghindari
penyalahgunaan. Tetapi dengan mengikuti beberapa teknik optimasi mesin pencari
(SEO) yang sudah terbukti, Anda dapat memastikan bahwa website Anda terindeks
dengan baik dan tetap tinggi dalam peringkat.
Jenis-jenis
memsin pencarian
Berikut ini adalah beberapa search engine yang popular di internet.
Cara kerjanya sendiri memang sama, yaitu Anda tinggal memasukkan kata kunci dan
tekan tombol enter. Tetapi mereka bisa memberikan hasil serta fitur-fitur yang
berbeda-beda.
Google
Google
adalah mesin pencari yang paling banyak digunakan di dunia. Google memproses
jutaan pencarian setiap harinya. Search engine Google sendiri tersedia dalam
123 bahasa. Google sendiri mengumpulkan jutaan informasi dari penggunanya dan
menggunakannya untuk menambahkan fitur untuk mesin pencarinya. Sebagai mesin
pencari yang paling banyak digunakan, Google mengontrol 90% pasar mesin
pencarian. Ini menjadikan Google jauh lebih besar jika dibanding dengan
competitor.
Bing
Bing
adalah search engine dari Microsoft. Sebelum ada Bing, Microsoft memiliki MSN
Search, Windows Live Search, dan Live Search. Bing adalah search engine
terbesar kedua di Amerika Serikat. Bing memegang 20% dari keseluruhan volume
pencarian, di belakang Google yang memegang 64% dan Yahoo dengan 12% dari
keseluruhan volume pencarian di Internet.
Yahoo
Sebelum
Google menguasai pasar mesin pencari, Yahoo! adalah salah satu mesin pencari
terbesar dunia. Sejak tahun 2011, mesin pencari Yahoo sudah dijalankan oleh
Bing. Untuk saat ini, Yahoo adalah mesin pencari terbesar ketiga di US setelah
Google dan Bing.
Ask.com
Sebelum
dikenal dengan namanya sekarang, Ask.com dikenal dengan nama Ask Jeeves. Ask.com sebenarnya memiliki format
yang berbeda dengan search engine lainnya. Mesin pencari yang satu ini memiliki
format tanya/jawab dimana pertanyaan-pertanyaannya nantinya akan dijawab oleh
user lainnya. Selain tanya/jawab ada juga format polling.
DuckDuckGo
DuckDuckGo adalah private search engine yang paling popular. Private search
engine sendiri adalah mesin pencari yang tidak melacak penggunanya dan
menampilkan halaman hasil pencariannya dengan perlindungan tambahan. User bisa
menggunakan DuckDuckGo tanpa melihat advertisements atau iklan.
Yandex.ru
Menurut
data dari Alexa, Yandex.ru adalah Yandex.ru adalah salah satu dari 30 situs web paling
populer di Internet. Selain itu, Yandex.ru juga menempati posisi peringkat 4
dalam website berbahasa Rusia. Yandex menampilkan diri sebagai perusahaan
teknologi yang membangun produk dan layanan cerdas yang didukung oleh
pembelajaran mesin. Menurut Wikipedia, Yandex mengoperasikan mesin pencari
terbesar di Rusia dengan sekitar 65% pangsa pasar di negara itu.
Web
crawling and indexes
Dasar-dasar
penelusuran
Proses crawling dimulai dengan
daftar alamat web dari aktivitas crawling sebelumnya dan peta situs yang diberikan oleh pemilik situs.
Saat mengunjungi situs, crawler kami menggunakan tautan pada situs tersebut
untuk menemukan halaman lainnya. Software ini memberikan perhatian khusus ke
situs baru, perubahan pada situs yang sudah ada, dan tautan yang tidak lagi
aktif. Program komputer akan menentukan situs mana yang di-crawl, serta
seberapa sering dan berapa banyak halaman yang diambil dari tiap situs.
Kami menawarkan fitur webmaster untuk memberikan pilihan yang
terperinci kepada pemilik situs terkait cara Google meng-crawl situs mereka:
mereka dapat memberikan petunjuk mendetail tentang cara memproses halaman di
situs mereka, dapat meminta
crawling ulang, atau dapat memilih tidak ikut crawling dengan menggunakan
file yang bernama “robots.txt”. Google tidak pernah menerima
bayaran agar suatu situs lebih sering di-crawl — kami menyediakan fitur yang
sama untuk semua situs guna memastikan kemungkinan hasil terbaik bagi pengguna.
Mencari informasi dengan crawling
Web itu seperti perpustakaan yang terus berkembang dengan miliaran
buku tanpa sistem pengarsipan terpusat. Kami menggunakan software yang dikenal
sebagai crawler web untuk menemukan halaman yang tersedia secara publik.
Crawler akan memeriksa halaman dan mengikuti tautan di halaman tersebut, sama
seperti yang Anda lakukan saat browsing konten di web. Crawler akan memeriksa
setiap tautan dan mengirimkan data terkait halaman tersebut kembali ke server
Google.
Mengelola
informasi dengan pengindeksan
Saat crawler menemukan halaman web,
sistem kami akan merender konten halaman tersebut, sama seperti yang dilakukan
browser. Kami mencatat sinyal-sinyal penting mulai dari kata kunci hingga
update situs dan kami tetap melacak semuanya di indeks Penelusuran.
Indeks Google Penelusuran berisi
ratusan miliaran halaman dan memiliki kapasitas hingga lebih dari 100.000.000
GB. Fungsinya sama seperti indeks di bagian belakang bukudengan entri untuk
setiap kata yang terlihat di setiap halaman yang kami indeks. Saat mengindeks
halaman web, kami menambahkannya ke entri untuk semua kata yang ada di dalam
halaman tersebut.
Dengan Grafik Pengetahuan, kami terus berupaya lebih dari sekadar
pencocokan kata kunci untuk lebih memahami orang, tempat, dan segala hal yang
Anda cari. Untuk melakukannya, kami tidak hanya mengelola informasi tentang
halaman tetapi juga berbagai jenis informasi lainnya. Saat ini, Google
Penelusuran dapat membantu Anda menelusuri teks dari jutaan buku yang ada di berbagai
perpustakaan ternama,
memperoleh info tentang waktu tempuh perjalanan dari perusahaan transportasi umum lokal, atau membantu Anda melihat data dari sumber publik seperti Bank Dunia.
Google mencari
informasi dengan perayapan
Google menggunakan perangkat lunak yang disebut
dengan “perayap web” untuk menemukan laman web yang tersedia untuk publik.
Perayap yang paling terkenal disebut “Googlebot”. Perayap melihat laman web dan
mengikuti tautan pada laman tersebut, hampir sama seperti yang Anda lakukan
jika Anda menjelajahi konten di web. Perayap membuka tautan satu ke tautan
lainnya dan membawa data tentang laman web tersebut kembali ke server Google.
Proses perayapan dimulai dari daftar alamat web dari
perayapan petasitus sebelumnya yang diberikan oleh pemilik situs web. Saat
perayap Google mengunjungi situs web ini, perayap mencari tautan laman
lain untuk dikunjungi. Perangkat lunak ini memberikan perhatian khusus terhadap
situs baru, perubahan terhadap situs yang sudah ada, dan tautan yang mati.
Program
komputer menentukan situs mana yang akan dirayapi, seberapa sering, dan berapa
banyak laman yang akan diambil dari setiap situs. Google tidak menerima
pembayaran agar suatu situs bisa dirayapi lebih sering untuk hasil penelusuran
web kami. Google lebih peduli akan hasil sebaik mungkin karena dalam
jangka panjang, itulah yang terbaik untuk pengguna dan bagi bisnis Google.
Google mengatur informasi dengan
pengindeksan
Web itu
bagaikan perpustakaan umum yang terus berkembang dengan miliaran buku dan tanpa
administrasi pusat. Google pada dasarnya mengumpulkan laman selama proses
perayapan, lalu membuat indeks, sehingga Google tahu persis cara untuk
mencari sesuatu. Hampir seperti indeks di bagian belakang buku, indeks Google
meliputi informasi tentang kata dan lokasinya. Saat Anda menelusuri, pada level
yang paling dasar, algoritme Google mencari istilah penelusuran Anda di
indeks untuk menemukan laman yang sesuai.
Setelah itu, proses penelusuran menjadi jauh lebih
kompleks. Saat menelusuri “anjing” Anda tidak menginginkan laman
dengan kata “anjing” ratusan kali di dalamnya. Mungkin Anda menginginkan
gambar, video, atau daftar jenis anjing. Sistem pengindeksan Google mencatat
banyak aspek laman yang berbeda, misalnya kapan laman dipublikasikan, apakah
laman tersebut berisi gambar atau video, dan masih banyak lagi. Dengan Grafik
Pengetahuan, kami tidak sekedar mencocokkan kata kunci. Google terus
berusaha lebih memahami orang, tempat, dan hal yang penting bagi Anda.
Link Analisys
Defenisi Link Analysis (analisis Tautan)
Analisis tautan
adalah teknik analisis data yang digunakan
untuk mengevaluasi hubungan (koneksi) antar node. Hubungan dapat diidentifikasi di antara
berbagai jenis node (objek), termasuk organisasi , orang dan transaksi. Analisis tutan telah digunakan untuk penyelidikan aktivitas
criminal (deteksi penipuan, kontraterorisme, dan inteelijen), analisis keamanan
computer, optimisasi mesin pencarian, riset pasar, penelitian medis, dan seni.
Penemuan
Pengetahuan (Knawlage)
Penemuan
pengetahuan adalah proses interaktif dan interaktif
yang
digunakan untuk mengidentifikasi , menganalisis dan memvisualisasikan pola dalam data.
Analisis jaringan, analisis tautan dan analisis jaringan sosial adalah semua metode penemuan pengetahuan, masing-masing
subset yang sesuai dari metode sebelumnya. Sebagian besar metode penemuan
pengetahuan mengikuti langkah-langkah ini (pada tingkat tertinggi):
Pengumpulan dan pemrosesan data membutuhkan akses ke data
dan memiliki beberapa masalah yang melekat, termasuk kelebihan informasi dan kesalahan data. Setelah data dikumpulkan, itu akan
perlu diubah menjadi format yang dapat digunakan secara efektif oleh analisis
manusia dan komputer. Alat visualisasi manual atau yang dihasilkan komputer
dapat dipetakan dari data, termasuk bagan jaringan. Beberapa algoritma ada
untuk membantu analisis data - algoritma
Dijkstra
, pencarian
luas pertama , dan pencarian kedalaman-pertama .
Analisis tautan berfokus pada analisis hubungan antar node
melalui metode visualisasi ( diagram
jaringan
, matriks asosiasi). Berikut ini contoh hubungan yang mungkin dipetakan untuk
investigasi kejahatan:
Hubungan / Jaringan
|
Sumber data
|
Kepercayaan
|
Kontak sebelumnya di keluarga, lingkungan, sekolah,
militer, klub atau organisasi. Catatan publik dan pengadilan. Data hanya
tersedia di negara asal tersangka.
|
Tugas
|
Log dan catatan panggilan telepon, surat elektronik, ruang
obrolan, pesan instan, kunjungan situs web. Catatan perjalanan. Kecerdasan
manusia: observasi pertemuan dan kehadiran di acara-acara umum.
|
Uang & Sumber Daya
|
Rekening bank dan catatan transfer uang. Pola dan lokasi
penggunaan kartu kredit. Catatan pengadilan sebelumnya. Kecerdasan manusia:
pengamatan kunjungan ke sumber daya perbankan alternatif seperti Hawala
|
Strategi & Tujuan
|
Situs web. Video dan disk terenkripsi yang dikirim oleh
kurir. Catatan perjalanan. Kecerdasan manusia: observasi pertemuan dan
kehadiran di acara-acara umum.
|
Analisis
tautan digunakan untuk 3 tujuan utama:
a. Temukan kecocokan dalam data untuk
mengetahui pola minat yang diketahui;
- Temukan anomali di mana pola
yang diketahui dilanggar;
- Temukan pola baru yang menarik
(analisis jaringan social, penambangan data).
Sejarah Link Analisys
Klerks
mengkategorikan alat analisis tautan menjadi 3 generasi. Generasi pertama diperkenalkan pada tahun
1975 sebagai Charts Anacpapa dari Harper dan Harris. Metode ini mensyaratkan
bahwa pakar domain meninjau file data, mengidentifikasi asosiasi dengan
membangun matriks asosiasi, membuat bagan tautan untuk visualisasi dan akhirnya
menganalisis bagan jaringan untuk mengidentifikasi pola yang menarik. Metode
ini memerlukan pengetahuan domain yang luas dan sangat memakan waktu ketika
meninjau sejumlah besar data.
Matriks
Asosiasi
Selain matriks asosiasi, matriks kegiatan dapat digunakan
untuk menghasilkan informasi yang dapat ditindaklanjuti, yang memiliki nilai
praktis dan digunakan untuk penegakan hukum. Matriks aktivitas, seperti yang
disiratkan oleh istilah, berpusat pada tindakan dan aktivitas orang-orang yang
terkait dengan lokasi. Sedangkan matriks asosiasi berfokus pada hubungan antara
orang, organisasi, dan / atau properti. Perbedaan antara dua jenis matriks ini,
meskipun kecil, tetap signifikan dalam hal output dari analisis yang
diselesaikan atau diberikan.
Alat generasi kedua terdiri dari alat-alat analisis berbasis
grafis otomatis seperti IBM i2 Analyst's Notebook, Netmap, ClueMaker dan Watson. Alat-alat ini menawarkan kemampuan untuk
mengotomatisasi konstruksi dan pembaruan bagan tautan setelah matriks asosiasi
dibuat secara manual, namun, analisis bagan dan grafik yang dihasilkan masih
memerlukan pakar dengan pengetahuan domain yang luas.
Generasi ketiga alat analisis tautan seperti DataWalk memungkinkan visualisasi otomatis
keterkaitan antar elemen dalam kumpulan data, yang kemudian dapat berfungsi
sebagai kanvas untuk eksplorasi lebih lanjut atau pembaruan manual.
Masalah
dengan analisis tautan
Informasi yang berlebihan
Dengan sejumlah besar data dan informasi yang disimpan
secara elektronik, pengguna dihadapkan dengan beberapa sumber informasi yang tidak
terkait yang tersedia untuk analisis. Teknik analisis data diperlukan untuk
membuat penggunaan data yang efektif dan efisien. Palshikar mengklasifikasikan
teknik analisis data ke dalam dua kategori - statistik ( model , analisis time-series , pengelompokan dan klasifikasi , pencocokan
algoritma untuk mendeteksi anomali) dan kecerdasan buatan (AI) teknik
(penambangan data, sistem pakar , pengenalan pola , teknik pembelajaran mesin , saraf jaringan )
Bolton & Hand mendefinisikan analisis data
statistik sebagai metode yang diawasi atau tidak diawasi. Metode pembelajaran terawasi
mensyaratkan bahwa aturan didefinisikan dalam sistem untuk menetapkan perilaku
yang diharapkan atau tidak terduga. Metode pembelajaran yang tidak diawasi
meninjau data dibandingkan dengan norma dan mendeteksi pencilan statistik.
Metode pembelajaran yang diawasi terbatas dalam skenario yang dapat ditangani
karena metode ini mengharuskan aturan pelatihan ditetapkan berdasarkan pola
sebelumnya. Metode pembelajaran tanpa pengawasan dapat memberikan deteksi
masalah yang lebih luas, namun, dapat menghasilkan rasio positif palsu yang
lebih tinggi jika norma perilaku tidak ditetapkan atau dipahami dengan baik.
Data itu sendiri memiliki masalah yang melekat
termasuk integritas (atau kurangnya) dan perubahan berkelanjutan. Data dapat
berisi "kesalahan kelalaian dan komisi karena pengumpulan atau penanganan
yang salah, dan ketika entitas secara aktif mencoba untuk menipu dan / atau
menyembunyikan tindakan mereka".Sparrow menyoroti ketidaklengkapan (tidak
dapat dihindari data atau tautan yang hilang), batas fuzzy (subjektivitas dalam
memutuskan apa yang harus dimasukkan) dan perubahan dinamis (pengakuan bahwa
data selalu berubah) sebagai tiga masalah utama dengan analisis data.
Setelah data diubah menjadi format yang dapat
digunakan, tekstur terbuka dan masalah referensi silang mungkin muncul. Tekstur
terbuka didefenisikan oleh waisman sebagai ketidakpastian yang tidak dapat
dihindari dalam makna ketika istilah empiris digunakan dalam konteks yang
berbeda. Ketidakpastian dalam arti istilah menyajikan masalah ketika mencoba
untuk mencari dan referensi silang data dari berbagai sumber.
Metode utama untuk menyelesaikan masalah analisis data
adalah ketergantungan pada pengetahuan domain dari seorang
ahli. Ini adalah metode yang sangat memakan waktu dan mahal dalam melakukan
analisis tautan dan memiliki masalah yang melekat pada dirinya sendiri. McGrath
dkk. menyimpulkan bahwa tata letak dan penyajian diagram jaringan memiliki
dampak signifikan pada "persepsi keberadaan kelompok dalam jaringan"
pengguna. Bahkan menggunakan pakar domain dapat menghasilkan kesimpulan yang
berbeda karena analisis mungkin subjektif.
a.
Penentuan vc pencegahan kejahatan
Teknik analisa tautan terutama digunakan untuk
penuntutan karena jauh lebih muda untuk meninjau data historis untuk pola dari
pada mencoba untuk memprediksi tindakan di masa depan.
Krebs menunjukkan penggunaan matriks asosiasi dan
bagan tautan jaringan teroris yang terkait dengan 19 pembajak yang bertanggung
jawab atas serangan 11 September dengan memetakan
rincian tersedia secara umum yang tersedia setelah serangan. Bahkan dengan
keuntungan dari informasi masa depan dan informasi yang tersedia secara publik
tentang orang, tempat dan transaksi, jelas bahwa ada data yang hilang.
Atau, Picarelli berpendapat bahwa penggunaan teknik
analisis tautan bisa digunakan untuk mengidentifikasi dan berpotensi mencegah
aktivitas terlarang dalam jaringan Aum Shinrikyo . “Kita harus
berhati-hati terhadap 'kesalahan dengan asosiasi'. Menjadi terkait dengan
teroris tidak membuktikan rasa bersalah - tetapi itu mengundang investigasi. ”
Menyeimbangkan konsep hukum kemungkinan penyebab , hak privasi dan kebebasan berserikat menjadi menantang
ketika meninjau data yang berpotensi sensitif dengan tujuan untuk mencegah
kejahatan atau ilegal aktivitas yang belum terjadi.
Solusi yang diusulkan
Ada
empat kategori solusi analisis tautan yang diusulkan:
- Berbasis
template
- Berbasis
kesamaan
- Statistik
Alat berbasis heuristik menggunakan aturan keputusan yang
disaring dari pengetahuan ahli menggunakan data terstruktur. Alat-alat berbasis
template menggunakan Natural
Language Processing (NLP) untuk mengekstrak rincian dari data
tidak terstruktur yang dicocokkan dengan template yang telah ditentukan.
Pendekatan berbasis kesamaan menggunakan pembobotan tertimbang untuk
membandingkan atribut dan mengidentifikasi tautan potensial. Pendekatan
statistik mengidentifikasi tautan potensial berdasarkan statistik leksikal.
Posting Komentar untuk "Web Search"