Web Search

Konsep Dasar Web Search
Pengertian mesin pencarian
Mesin pencari atau search engine adalah website yang mengumpulkan dan mengorganisir konten dari seluruh bagian internet. Untuk menggunakannya, Anda tinggal memasukkan apa yang ingin Anda cari dan mesin pencari akan memberikan Anda berbagai link ke konten yang sesuai dengan apa yang dicari. Hasil halaman pencarian, biasa disebut search engine results page atau SERP, memberikan hasil kepada Anda dari konten yang paling relevan sampai tidak. Cara mesin pencari menentukan ranking memang berbeda-beda.
Mesin pencari juga suka mengubah-ubah algoritma untuk meningkatkan user experience. Setiap search engine bertujuan untuk mengerti bagaimana users menggunakan search engine dan memberi mereka jawaban yang terbaik untuk pencarian mereka. Dengan begitu, search engine bisa memberikan jawaban yang berkualitas tinggi dan paling relevan.
Cara kerja mesin pencarian
Mesin pencari menggunakan program yang sering disebut dengan istilah spiders, robots, atau crawlers untuk mencari konten dari seluruh sudut internet. Hasil-hasil pencarian crawler ini kemudian digunakan mesin pencari untuk membangun index internet.
Sebagian besar mesin pencari akan memberi tahu Anda tentang cara meningkatkan peringkat halaman Anda di halaman hasil pencarian, algoritma yang mereka gunakan dijaga dengan baik dan sering berubah untuk menghindari penyalahgunaan. Tetapi dengan mengikuti beberapa teknik optimasi mesin pencari (SEO) yang sudah terbukti, Anda dapat memastikan bahwa website Anda terindeks dengan baik dan tetap tinggi dalam peringkat.
Jenis-jenis memsin pencarian
Berikut ini adalah beberapa search engine yang popular di internet. Cara kerjanya sendiri memang sama, yaitu Anda tinggal memasukkan kata kunci dan tekan tombol enter. Tetapi mereka bisa memberikan hasil serta fitur-fitur yang berbeda-beda.
Google
Google adalah mesin pencari yang paling banyak digunakan di dunia. Google memproses jutaan pencarian setiap harinya. Search engine Google sendiri tersedia dalam 123 bahasa. Google sendiri mengumpulkan jutaan informasi dari penggunanya dan menggunakannya untuk menambahkan fitur untuk mesin pencarinya. Sebagai mesin pencari yang paling banyak digunakan, Google mengontrol 90% pasar mesin pencarian. Ini menjadikan Google jauh lebih besar jika dibanding dengan competitor.

Bing
Bing adalah search engine dari Microsoft. Sebelum ada Bing, Microsoft memiliki MSN Search, Windows Live Search, dan Live Search. Bing adalah search engine terbesar kedua di Amerika Serikat. Bing memegang 20% dari keseluruhan volume pencarian, di belakang Google yang memegang 64% dan Yahoo dengan 12% dari keseluruhan volume pencarian di Internet.
Yahoo
Sebelum Google menguasai pasar mesin pencari, Yahoo! adalah salah satu mesin pencari terbesar dunia. Sejak tahun 2011, mesin pencari Yahoo sudah dijalankan oleh Bing. Untuk saat ini, Yahoo adalah mesin pencari terbesar ketiga di US setelah Google dan Bing.
Ask.com
Sebelum dikenal dengan namanya sekarang, Ask.com dikenal dengan nama Ask Jeeves. Ask.com sebenarnya memiliki format yang berbeda dengan search engine lainnya. Mesin pencari yang satu ini memiliki format tanya/jawab dimana pertanyaan-pertanyaannya nantinya akan dijawab oleh user lainnya. Selain tanya/jawab ada juga format polling.
DuckDuckGo
DuckDuckGo adalah private search engine yang paling popular. Private search engine sendiri adalah mesin pencari yang tidak melacak penggunanya dan menampilkan halaman hasil pencariannya dengan perlindungan tambahan. User bisa menggunakan DuckDuckGo tanpa melihat advertisements atau iklan.
Yandex.ru
Menurut data dari Alexa, Yandex.ru adalah Yandex.ru adalah salah satu dari 30 situs web paling populer di Internet. Selain itu, Yandex.ru juga menempati posisi peringkat 4 dalam website berbahasa Rusia. Yandex menampilkan diri sebagai perusahaan teknologi yang membangun produk dan layanan cerdas yang didukung oleh pembelajaran mesin. Menurut Wikipedia, Yandex mengoperasikan mesin pencari terbesar di Rusia dengan sekitar 65% pangsa pasar di negara itu.




Web crawling and indexes
Dasar-dasar penelusuran
Proses crawling dimulai dengan daftar alamat web dari aktivitas crawling sebelumnya dan peta situs yang diberikan oleh pemilik situs. Saat mengunjungi situs, crawler kami menggunakan tautan pada situs tersebut untuk menemukan halaman lainnya. Software ini memberikan perhatian khusus ke situs baru, perubahan pada situs yang sudah ada, dan tautan yang tidak lagi aktif. Program komputer akan menentukan situs mana yang di-crawl, serta seberapa sering dan berapa banyak halaman yang diambil dari tiap situs.
Kami menawarkan fitur webmaster untuk memberikan pilihan yang terperinci kepada pemilik situs terkait cara Google meng-crawl situs mereka: mereka dapat memberikan petunjuk mendetail tentang cara memproses halaman di situs mereka, dapat meminta crawling ulang, atau dapat memilih tidak ikut crawling dengan menggunakan file yang bernama “robots.txt”. Google tidak pernah menerima bayaran agar suatu situs lebih sering di-crawl — kami menyediakan fitur yang sama untuk semua situs guna memastikan kemungkinan hasil terbaik bagi pengguna.
Mencari informasi dengan crawling
Web itu seperti perpustakaan yang terus berkembang dengan miliaran buku tanpa sistem pengarsipan terpusat. Kami menggunakan software yang dikenal sebagai crawler web untuk menemukan halaman yang tersedia secara publik. Crawler akan memeriksa halaman dan mengikuti tautan di halaman tersebut, sama seperti yang Anda lakukan saat browsing konten di web. Crawler akan memeriksa setiap tautan dan mengirimkan data terkait halaman tersebut kembali ke server Google.
Mengelola informasi dengan pengindeksan
Saat crawler menemukan halaman web, sistem kami akan merender konten halaman tersebut, sama seperti yang dilakukan browser. Kami mencatat sinyal-sinyal penting mulai dari kata kunci hingga update situs dan kami tetap melacak semuanya di indeks Penelusuran.
Indeks Google Penelusuran berisi ratusan miliaran halaman dan memiliki kapasitas hingga lebih dari 100.000.000 GB. Fungsinya sama seperti indeks di bagian belakang bukudengan entri untuk setiap kata yang terlihat di setiap halaman yang kami indeks. Saat mengindeks halaman web, kami menambahkannya ke entri untuk semua kata yang ada di dalam halaman tersebut.
Dengan Grafik Pengetahuan, kami terus berupaya lebih dari sekadar pencocokan kata kunci untuk lebih memahami orang, tempat, dan segala hal yang Anda cari. Untuk melakukannya, kami tidak hanya mengelola informasi tentang halaman tetapi juga berbagai jenis informasi lainnya. Saat ini, Google Penelusuran dapat membantu Anda menelusuri teks dari jutaan buku yang ada di berbagai perpustakaan ternama, memperoleh info tentang waktu tempuh perjalanan dari perusahaan transportasi umum lokal, atau membantu Anda melihat data dari sumber publik seperti Bank Dunia.

Google mencari informasi dengan perayapan

Google menggunakan perangkat lunak yang disebut dengan “perayap web” untuk menemukan laman web yang tersedia untuk publik. Perayap yang paling terkenal disebut “Googlebot”. Perayap melihat laman web dan mengikuti tautan pada laman tersebut, hampir sama seperti yang Anda lakukan jika Anda menjelajahi konten di web. Perayap membuka tautan satu ke tautan lainnya dan membawa data tentang laman web tersebut kembali ke server Google.

Proses perayapan dimulai dari daftar alamat web dari perayapan petasitus sebelumnya yang diberikan oleh pemilik situs web. Saat perayap Google mengunjungi situs web ini, perayap mencari tautan laman lain untuk dikunjungi. Perangkat lunak ini memberikan perhatian khusus terhadap situs baru, perubahan terhadap situs yang sudah ada, dan tautan yang mati.

Program komputer menentukan situs mana yang akan dirayapi, seberapa sering, dan berapa banyak laman yang akan diambil dari setiap situs. Google tidak menerima pembayaran agar suatu situs bisa dirayapi lebih sering untuk hasil penelusuran web kami. Google lebih peduli akan hasil sebaik mungkin  karena dalam jangka panjang, itulah yang terbaik untuk pengguna dan bagi bisnis Google.

Google mengatur informasi dengan pengindeksan

Web itu bagaikan perpustakaan umum yang terus berkembang dengan miliaran buku dan tanpa administrasi pusat. Google pada dasarnya mengumpulkan laman selama proses perayapan, lalu membuat indeks, sehingga Google tahu persis cara untuk mencari sesuatu. Hampir seperti indeks di bagian belakang buku, indeks Google meliputi informasi tentang kata dan lokasinya. Saat Anda menelusuri, pada level yang paling dasar, algoritme Google mencari istilah penelusuran Anda di indeks untuk menemukan laman yang sesuai.

Setelah itu, proses penelusuran menjadi jauh lebih kompleks. Saat menelusuri  “anjing” Anda tidak menginginkan laman dengan kata “anjing” ratusan kali di dalamnya. Mungkin Anda menginginkan gambar, video, atau daftar jenis anjing. Sistem pengindeksan Google mencatat banyak aspek laman yang berbeda, misalnya kapan laman dipublikasikan, apakah laman tersebut berisi gambar atau video, dan masih banyak lagi. Dengan Grafik Pengetahuan, kami tidak sekedar mencocokkan kata kunci. Google terus berusaha lebih memahami orang, tempat, dan hal yang penting bagi Anda.

 

Link Analisys
Defenisi Link Analysis (analisis Tautan)
Analisis tautan adalah teknik analisis data yang digunakan untuk mengevaluasi hubungan (koneksi) antar node. Hubungan dapat diidentifikasi di antara berbagai jenis node (objek), termasuk organisasi , orang dan transaksi. Analisis tutan telah digunakan untuk penyelidikan aktivitas criminal (deteksi penipuan, kontraterorisme, dan inteelijen), analisis keamanan computer, optimisasi mesin pencarian, riset pasar, penelitian medis, dan seni.
Penemuan Pengetahuan (Knawlage)
Penemuan pengetahuan adalah proses interaktif dan interaktif yang digunakan untuk mengidentifikasi , menganalisis dan memvisualisasikan pola dalam data. Analisis jaringan, analisis tautan dan analisis jaringan sosial adalah semua metode penemuan pengetahuan, masing-masing subset yang sesuai dari metode sebelumnya. Sebagian besar metode penemuan pengetahuan mengikuti langkah-langkah ini (pada tingkat tertinggi):
a.       Pengolahan data
  1. Transformasi
  2. Analisis
  3. Visualisasi
Pengumpulan dan pemrosesan data membutuhkan akses ke data dan memiliki beberapa masalah yang melekat, termasuk kelebihan informasi dan kesalahan data. Setelah data dikumpulkan, itu akan perlu diubah menjadi format yang dapat digunakan secara efektif oleh analisis manusia dan komputer. Alat visualisasi manual atau yang dihasilkan komputer dapat dipetakan dari data, termasuk bagan jaringan. Beberapa algoritma ada untuk membantu analisis data - algoritma Dijkstra , pencarian luas pertama , dan pencarian kedalaman-pertama .
Analisis tautan berfokus pada analisis hubungan antar node melalui metode visualisasi ( diagram jaringan , matriks asosiasi). Berikut ini contoh hubungan yang mungkin dipetakan untuk investigasi kejahatan:
Hubungan / Jaringan
Sumber data
Kepercayaan
Kontak sebelumnya di keluarga, lingkungan, sekolah, militer, klub atau organisasi. Catatan publik dan pengadilan. Data hanya tersedia di negara asal tersangka.
Tugas
Log dan catatan panggilan telepon, surat elektronik, ruang obrolan, pesan instan, kunjungan situs web. Catatan perjalanan. Kecerdasan manusia: observasi pertemuan dan kehadiran di acara-acara umum.
Uang & Sumber Daya
Rekening bank dan catatan transfer uang. Pola dan lokasi penggunaan kartu kredit. Catatan pengadilan sebelumnya. Kecerdasan manusia: pengamatan kunjungan ke sumber daya perbankan alternatif seperti Hawala
Strategi & Tujuan
Situs web. Video dan disk terenkripsi yang dikirim oleh kurir. Catatan perjalanan. Kecerdasan manusia: observasi pertemuan dan kehadiran di acara-acara umum.

Analisis tautan digunakan untuk 3 tujuan utama:
a.       Temukan kecocokan dalam data untuk mengetahui pola minat yang diketahui;
  1. Temukan anomali di mana pola yang diketahui dilanggar;
  2. Temukan pola baru yang menarik (analisis jaringan social, penambangan data).


Sejarah Link Analisys 
Klerks mengkategorikan alat analisis tautan menjadi 3 generasi.  Generasi pertama diperkenalkan pada tahun 1975 sebagai Charts Anacpapa dari Harper dan Harris. Metode ini mensyaratkan bahwa pakar domain meninjau file data, mengidentifikasi asosiasi dengan membangun matriks asosiasi, membuat bagan tautan untuk visualisasi dan akhirnya menganalisis bagan jaringan untuk mengidentifikasi pola yang menarik. Metode ini memerlukan pengetahuan domain yang luas dan sangat memakan waktu ketika meninjau sejumlah besar data.
Matriks Asosiasi
Selain matriks asosiasi, matriks kegiatan dapat digunakan untuk menghasilkan informasi yang dapat ditindaklanjuti, yang memiliki nilai praktis dan digunakan untuk penegakan hukum. Matriks aktivitas, seperti yang disiratkan oleh istilah, berpusat pada tindakan dan aktivitas orang-orang yang terkait dengan lokasi. Sedangkan matriks asosiasi berfokus pada hubungan antara orang, organisasi, dan / atau properti. Perbedaan antara dua jenis matriks ini, meskipun kecil, tetap signifikan dalam hal output dari analisis yang diselesaikan atau diberikan.
Alat generasi kedua terdiri dari alat-alat analisis berbasis grafis otomatis seperti IBM i2 Analyst's Notebook, Netmap, ClueMaker dan Watson. Alat-alat ini menawarkan kemampuan untuk mengotomatisasi konstruksi dan pembaruan bagan tautan setelah matriks asosiasi dibuat secara manual, namun, analisis bagan dan grafik yang dihasilkan masih memerlukan pakar dengan pengetahuan domain yang luas.
Generasi ketiga alat analisis tautan seperti DataWalk memungkinkan visualisasi otomatis keterkaitan antar elemen dalam kumpulan data, yang kemudian dapat berfungsi sebagai kanvas untuk eksplorasi lebih lanjut atau pembaruan manual.

Masalah dengan analisis tautan

Informasi yang berlebihan

Dengan sejumlah besar data dan informasi yang disimpan secara elektronik, pengguna dihadapkan dengan beberapa sumber informasi yang tidak terkait yang tersedia untuk analisis. Teknik analisis data diperlukan untuk membuat penggunaan data yang efektif dan efisien. Palshikar mengklasifikasikan teknik analisis data ke dalam dua kategori - statistik ( model , analisis time-series , pengelompokan dan klasifikasi , pencocokan algoritma untuk mendeteksi anomali) dan kecerdasan buatan (AI) teknik (penambangan data, sistem pakar , pengenalan pola , teknik pembelajaran mesin , saraf jaringan )

Bolton & Hand mendefinisikan analisis data statistik sebagai metode yang diawasi atau tidak diawasi. Metode pembelajaran terawasi mensyaratkan bahwa aturan didefinisikan dalam sistem untuk menetapkan perilaku yang diharapkan atau tidak terduga. Metode pembelajaran yang tidak diawasi meninjau data dibandingkan dengan norma dan mendeteksi pencilan statistik. Metode pembelajaran yang diawasi terbatas dalam skenario yang dapat ditangani karena metode ini mengharuskan aturan pelatihan ditetapkan berdasarkan pola sebelumnya. Metode pembelajaran tanpa pengawasan dapat memberikan deteksi masalah yang lebih luas, namun, dapat menghasilkan rasio positif palsu yang lebih tinggi jika norma perilaku tidak ditetapkan atau dipahami dengan baik.

Data itu sendiri memiliki masalah yang melekat termasuk integritas (atau kurangnya) dan perubahan berkelanjutan. Data dapat berisi "kesalahan kelalaian dan komisi karena pengumpulan atau penanganan yang salah, dan ketika entitas secara aktif mencoba untuk menipu dan / atau menyembunyikan tindakan mereka".Sparrow menyoroti ketidaklengkapan (tidak dapat dihindari data atau tautan yang hilang), batas fuzzy (subjektivitas dalam memutuskan apa yang harus dimasukkan) dan perubahan dinamis (pengakuan bahwa data selalu berubah) sebagai tiga masalah utama dengan analisis data.

Setelah data diubah menjadi format yang dapat digunakan, tekstur terbuka dan masalah referensi silang mungkin muncul. Tekstur terbuka didefenisikan oleh waisman sebagai ketidakpastian yang tidak dapat dihindari dalam makna ketika istilah empiris digunakan dalam konteks yang berbeda. Ketidakpastian dalam arti istilah menyajikan masalah ketika mencoba untuk mencari dan referensi silang data dari berbagai sumber.

Metode utama untuk menyelesaikan masalah analisis data adalah ketergantungan pada pengetahuan domain dari seorang ahli. Ini adalah metode yang sangat memakan waktu dan mahal dalam melakukan analisis tautan dan memiliki masalah yang melekat pada dirinya sendiri. McGrath dkk. menyimpulkan bahwa tata letak dan penyajian diagram jaringan memiliki dampak signifikan pada "persepsi keberadaan kelompok dalam jaringan" pengguna. Bahkan menggunakan pakar domain dapat menghasilkan kesimpulan yang berbeda karena analisis mungkin subjektif.

a.              Penentuan vc pencegahan kejahatan

Teknik analisa tautan terutama digunakan untuk penuntutan karena jauh lebih muda untuk meninjau data historis untuk pola dari pada mencoba untuk memprediksi tindakan di masa depan.

Krebs menunjukkan penggunaan matriks asosiasi dan bagan tautan jaringan teroris yang terkait dengan 19 pembajak yang bertanggung jawab atas serangan 11 September dengan memetakan rincian tersedia secara umum yang tersedia setelah serangan. Bahkan dengan keuntungan dari informasi masa depan dan informasi yang tersedia secara publik tentang orang, tempat dan transaksi, jelas bahwa ada data yang hilang.

Atau, Picarelli berpendapat bahwa penggunaan teknik analisis tautan bisa digunakan untuk mengidentifikasi dan berpotensi mencegah aktivitas terlarang dalam jaringan Aum Shinrikyo . “Kita harus berhati-hati terhadap 'kesalahan dengan asosiasi'. Menjadi terkait dengan teroris tidak membuktikan rasa bersalah - tetapi itu mengundang investigasi. ” Menyeimbangkan konsep hukum kemungkinan penyebab , hak privasi dan kebebasan berserikat menjadi menantang ketika meninjau data yang berpotensi sensitif dengan tujuan untuk mencegah kejahatan atau ilegal aktivitas yang belum terjadi.

Solusi yang diusulkan
Ada empat kategori solusi analisis tautan yang diusulkan:
  1. Berbasis template
  2. Berbasis kesamaan
  3. Statistik
Alat berbasis heuristik menggunakan aturan keputusan yang disaring dari pengetahuan ahli menggunakan data terstruktur. Alat-alat berbasis template menggunakan Natural Language Processing (NLP) untuk mengekstrak rincian dari data tidak terstruktur yang dicocokkan dengan template yang telah ditentukan. Pendekatan berbasis kesamaan menggunakan pembobotan tertimbang untuk membandingkan atribut dan mengidentifikasi tautan potensial. Pendekatan statistik mengidentifikasi tautan potensial berdasarkan statistik leksikal.

 

 

 

 



Posting Komentar untuk "Web Search"