TEXT SUMMARIZATION

A.    Latar Belakang
Peringkas teks atau biasa disebut text summarization merupakan salah satu materi yang bertujuan untuk memberikan kemudahan kepada para pembaca agar lebih mudah mencari informasi secara cepat. Hal ini ditandai dengan semakin banyaknya orang yang melakukan browsing sebagai bentuk kebutuhan akan informasi yang lebih cepat dan menyingkat waktu, namun tidak mungkin setiap pengguna untuk browsing atau membaca keseluruhan dokumen. Hal inilah yang harus diperhatikan,oleh karena itu metode yang memungkinkan pengguna untuk mencari dan menelusuri informasi dengan cepat dalam koleksi dokumen. Peringkasan dokumen tunggal telah menjadi subjek fokus beberapa tahun ini dalam masalah kompresi, redundansi kecepatan, dan pemilihan bagian sangat penting dalam pembentukan ringkasan yang berguna.

Untuk mempermudah dalam memperoleh Berita Kriminal yang dicari oleh pengguna maka penulis mengimplementasikan dalam sistem dengan proses pengenalan teks yang disebut Text Mining. Text Mining adalah proses mengambil data berupa teks dengan sumber data biasanya dari dokumen dan tujuannya adalah mencari kata-kata yang mewakili dalam dokumen sehingga dapat dilakukan analisa keterhubungan dalam dokumen. Dalam pencarian informasi berdasarkan keyword/inputan sangat berguna untuk pencarian terarah dan berguna untuk mengetahui informasi yang berhubungan dengan keyword yang dicari.
Dengan adanya makalah yang membahas tentang Text Summarization ini diharapkan dapat membantu para pembaca dapat memahami mengenai konsep dasar text summarization, jenis ringkasan dari text summarization dan pendekatan pada text summarization.













Konsep Dasar Text Summarization
Definisi Text Summarization
Text summarization adalah proses mengurangi dokumen teks dengan program komputer untuk menciptakan sebuah ringkasan yang mempertahankan poin yang paling penting dari dokumen asli. . Metode Ekstraksi bekerja dengan memilih bagian dari kata yang ada, frase, atau kalimat dalam teks asli untuk membentuk ringkasan.Sebaliknya, metode abstraksi membangun sebuah representasi semantik internal dan kemudian menggunakan teknik bahasa generasi alami untuk membuat ringkasan yang lebih dekat dengan meringkas secara manual . Metode The state-of-the-art abstraktif masih cukup lemah, sehingga sebagian besar penelitian telah difokuskan pada metode ekstraktif.
Suatu artikel yang memiliki ukuran yang panjang, akan mengakibatkan pembaca akan sangat kesulitan bila harus membaca dan menyerap semua informasi dari artikel tersebut. Text Summarization akan menghasilkan suatu produk teks yang tetap memiliki/ mengandung bagian-bagian yang penting dari artikel asli. Hasil pengujian menunjukkan bahwa proses summary sangat bergantung pada jenis dan struktur dari artikel. Sistem akan menghasilkan summary yang baik bila jenis artikel yang diproses adalah jenis ilmiah argumentasi. Sedangkan untuk struktur artikel, bila suatu artikel memiliki banyak paragraf dan disetiap paragraf memiliki lebih dari dua kalimat maka mendapatkan hasil summary yang baik.
Sedangkan menurut Hovy, ringkasan adalah teks yang dihasilkan dari sebuah teks atau banyak teks, yang mengandung isi informasi dari teks asli dan panjangnya tidak lebih dari setengah teks aslinya (Hovy, 2001). Penelitian mengenai peringkasan teks otomatis (automatic text summarization) dengan menggunakan berbagai macam metode dan pendekatan, diawali sejak tahun 1958 oleh Luhn. Banyak teknik yang digunakan dalam summarization ini, seperti teknik pendekatan statistika yaitu teknik word frequency (Luhn, 1958), position in text (Baxendale, 1958), cue words and heading (Edmudson, 1969), sentence position (Lin dan Hoovy, 1997). Teknik pendekatan dengannatural language analysis yaitu inverse term frequency and NLP technique (Aone, 1990), lexical chain (Mc Keown, 1997), maximal maginal relevance (Cabonell dan Goldstein, 1998).


Karakteristik Peringkasan Teks
Terdapat dua pendekatan pada peringkasan teks, yaitu ekstraksi (shallower approaches) dan abstraksi (deeper approaches). Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting atau paling informatif dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama. Sedangkan teknik abstraksi melibatkan parafrase dari teks sumber. Teknik abstraksi mengambil intisari dari teks sumber, kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk berbeda dengan kalimat-kalimat pada teks sumber. Pada umumnya, abstraksi dapat meringkas teks lebih kuat daripada ekstraksi, tetapi sistemnya lebih sulit dikembangkan karena mengaplikasikan teknologi natural language generation yang merupakan bahasan yang dikembangkan tersendiri.
Berdasarkan jumlah sumbernya, sebuah ringkasan dapat dihasilkan dari satu sumber (single-document) atau dari banyak sumber (multi-document). Peringkasan single-document masukannya berupa sebuah teks dan keluarannya berupa sebuah teks baru yang lebih singkat. Pada peringkasan multi-document, masukan adalah beberapa dokumen teks yang memiliki tema sama, biasanya sudah ada dalam satu klaster kemudian akan dihasilkan keluaran berupa sebuah teks yang lebih singkat yang merangkum informasi-informasi utama pada klaster masukan.
Suatu ringkasan dapat bersifat general, yaitu ringkasan yang berupaya mengambil sebanyak mungkin informasi penting yang mampu menggambarkankeseluruhan isi teks. Selain itu dapat juga informasi yang diambil untuk ringkasan berdasar pada querymasukan yang didefinisikan pengguna sistem. Queryoriented atau user-oriented summarization mencoba mengambil informasi yang relevan dengan query pengguna dan menampilkannya dalam bentuk ringkasan.
Berdasarkan fungsinya, sebuah ringkasan dapat memiliki sifat indicative, informative, atau evaluative. Ringkasan informativeberfungsi menyajikan informasi utama atau yang paling penting dari teks sumber. Ringkasan indicative memberikan saran untuk pembacaan lebih lanjut mengenai hal-hal tertentu dalam isi teks. Sedangkan ringkasanevaluative memberi komentar atau evaluasi terhadap informasi utama pada teks sumber.
Compression rate pada proses peringkasan akan menentukan panjang ringkasan yang dihasilkan. Biasanya diukur berdasarkan persentase dari teks sumber, misalnya ringkasan sepanjang 10%, 25%, atau 50% dari teks sumber. Selain itu dapat pula diukur berdasarkan jumlah kata, misalnya ditentukan ringkasan sepanjang 100 kata. Biasanya, panjang ringkasan tidak lebih dari setengah teks sumber. Gambar dibawah ini memperlihatkan arsitektur tingkat tinggi peringkasan teks otomatis. Masukan berupa teks dengan berbagai karakteristik dan keluaran berupa ringkasan ekstraksi maupun abstraksi.

Metode Secara Umum
Metode dalam penerapan Text Summarization ini adalah menggunakan metode TF-IDF (Terms Frequency – Inverse Document Frequency) dan Exhaustive algorithm. Metode TF-IDF berfungsi untuk menghitung bobot nilai dari setiap kalimat dan relasi antar kalimat. Sedangkan Exhaustive algorithm berfungsi untuk menghasilkan path dari setiap penelusuran titik-titik pada graph. Dan kemudian hasil path tersebut akan menjadi suatu summary.
Metode Text Summarization terdapat 3 metode secara umum yaitu :
Extraction-based summarization
Dua jenis summarization sering dibahas dalam literatur adalah ekstraksi keyphrase, di mana tujuannya adalah untuk memilih kata-kata individu atau frase untuk “tag” sebuah dokumen, dan summarization dokumen, di mana tujuannya adalah untuk memilih seluruh kalimat untuk membuat ringkasan paragraf pendek.
Pada 2012, Light Filtering, salah satu metode yang digunakan untuk summarization kalimat dari dokumen yang dinilai menuju konten utamanya, menunjukkan hasil yang baik untuk menggunakan summarization pre-processing langkah sebelum ekstraksi keyphrase.
Abstraction-based summarization
Teknik ekstraksi hanya menyalin informasi yang dianggap paling penting oleh sistem untuk ringkasan (misalnya, klausa kunci, kalimat atau paragraf), sedangkan abstraksi melibatkan parafrase bagian dari dokumen sumber. Secara umum, abstraksi dapat menyingkat teks lebih kuat dari ekstraksi, tetapi program yang bisa melakukan hal ini lebih sulit untuk mengembangkan karena mereka memerlukan penggunaan teknologi natural language generation.
Sementara beberapa proses telah dilakukan dalam abstractive summarization (menciptakan sinopsis abstrak secara manual), sebagian besar sistem summarization adalah ekstraktif (memilih subset dari kalimat untuk menempatkan dalam ringkasan).
Maximum entropy-based summarization
Meskipun automating abstractive summarization adalah tujuan dari penelitian summarization, sistem yang paling praktis didasarkan pada beberapa bentuk adalah summarization ekstraktif. Maximum entropy-based summarization telah berhasil diterapkan untuk summarization dalam domain siaran berita

Jenis Ringkasan Text Summarization
Pendekatan Peringkas Teks
Pendekatan Teks Summarization terdapat dua pendekatan, yaitu:
Ekstraksi (extractive summary)
Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting dari sebuah teks menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraph utama tanpa ada penambahan kalimat-kalimat baru yang terdapat pada dokumen aslinya.
Abstraksi (abstractive summary)
Teknik abstraksi menggunakan metode linguistic untuk memeriksa dan menafsirkan teks dokumen menjadi ringkasan. Ringkasan teks tersebut dihasilkan dengan cara menambahkan kalimat-kalimat baru yang merepresentasikan intisari teks sumber ke dalam bentuk yang berbeda dengan kalimat-kalimat yang ada pada teks sumber.
Tipe Peringkasan Teks Otomatis
a.      Ringkasan yang umum (Generic Summary)
·      Perwakilan dari teks asli yang mencoba untuk mempresentasikan semua feature penting dari sebuah teks asal.
·      Mengikuti pendekatan bottom-up (Information Retrieval).
·      Pemakai menginginkan segala informasi yang penting.
b.      Ringkasan Berpusat pada Pemakai (Query-driven)
·      Peringkasan bersandar pada spesifikasi kebutuhan informasi pemakai, seperti topic atau query.
·      Mengikuti pendekatan top-down (information Retrieval)
Bentuk Keluaran Peringkasan Teks Otomatis
1.      Indicative
Indicative adalah ringkasan yang dapat mengidentifikasi topic yang terdapat pada teks sumber dan dapat memberikan ide ringkas tentang apa yang tertuang dalam teks sumber.
2.      Informative
Informative adalah ringkasan yang dapat mengidentifikasi informasi tertentu dari dokumen sumber.
Tahapan Peringkasan Teks Otomatis
1.      Interpretation
Pada proses ini merupakan menafsir teks sumber untuk mendapatkan representasi dari teks.
2.      Transformation
Pada proses ini adalah mengubah representasi teks menjadi sebuah representasi ringkasan teks.
3.      Generation
Pada proses ini merupakan ringkasan teks dari representasi ringkasan teks.

Pendekatan Pada Text Summarization
Pendekatan pada Text Summarization dibagi menjadi 2 tipe, diantaranya adalah Pendekatan tradisional dan Pendekatan statistika. Berikut ini merupakan penjelasan mengenai Pendekatan tradisional dan Pendekatan statistika pada text summarization.
Pendekatan tradisional dibagi lagi menjadi tiga, diantaranya :
Teknik Inverse Term Frequency and NLP (Aone, 1990)
Dalam berbagai sumber, bahwa teknik inverse term frequency mencakup pada Algoritma TF-IDF. Metode TF-IDF merupakan metode untuk menghitung bobot setiap kata yang paling umum digunakan pada information retrieval. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat. Metode ini akan menghitung nilai Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap token (kata) di setiap dokumen dalam korpus. Metode ini akan menghitung bobot setiap token t di dokumen d dengan rumus:
Wdt = tfdt * IDFt
Dimana :
d          : dokumen ke-d
t           : kata ke-t dari kata kunci
W        : bobot dokumen ke-d terhadap kata ke-t
tf         : banyaknya kata yang dicari pada sebuah dokumen
IDF     : Inversed Document Frequency
Nilai IDF didapatkan dari IDF : log2 (D/df) dimana :
D         : total dokumen
df        : banyak dokumen yang mengandung kata yang dicari

Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen tersebut terhadap kata kunci, demikian sebaliknya.
Dan NLP adalah Natural Language Processing atau dalam bahasa Indonesia disebut dengan Pemrosesan Bahasa Alami merupakan bidang ilmu komputer, kecerdasan buatan dan bahasa yang berkaitan dengan interaksi antara komputer dan bahasa alami manusia. Dengan teknologi yang ada pada NLP, komputer dapat memahami bahasa manusia, demikian pula sebaliknya, komputer dapat membuat bahasa yang dimengerti manusia.

Salah satu fungsi dasar dalam NLP adalah parsing. Parsing, atau analisis sintak, merupakan proses analisis simbol baik pada bahasa alami maupun bahasa komputer, sesuai dengan aturan tata bahasa formal. Secara spesifik, banyak hal atau tugas yang dapat dilakukan oleh komputer menggunakan NLP. Tugas-tugas tersebut antara lain:
a.       Automatic summarization, yakni membuat ringkasan dari sebuah teks. Sebagaia  adalah yang biasa dipakai untuk meringkas informasi khusus pada media-media elektronik.
b.      Machine translation, yakni menerjemahkan teks dari satu bahasa ke bahasa lainnya. Tugas ini termasuk tugas yang paling sulit, karena membutuhkan hampir semua macam pengetahuan yang dimiliki manusia, seperti tata bahasa, semantik, serta pengetahuan umum untuk melakukan penerjemahan dengan benar.
c.       Natural language generation, yakni mengkonversi informasi dari database komputer ke dalam bahasa yang dimengerti manusia.
d.      Natural language understanding, mengkonversi teks ke dalam bentuk representasi bahasa formal yang mudah dimengerti program komputer untuk selanjutnya dimanipulasi. Kemampuan NPL mencakup identifikasi semantik dari banyak kemungkinan semantik yang berasal dari ekspresi bahasa alami.
e.       Part-of-speech tagging, yakni memberi label peranan sebuah kata sebuah kalimat, apakah sebagai kata benda, kata kerja, atau yang lain.

Teknik Lexical Chain (Mc Keown, 1997)
Salah satu metode yang digunakan dalam text summarization adalah lexical chain. Inti dari metode ini yaitu keterhubungan antara segment text yang terpilih untuk meminimalisasi hasil ringkasan yang mempunyai kalimat-kalimat yang tidak berkaitan.

·         Preprocessing
Proses pertama yaitu preprocessing. Proses ini terdiri dari text segmentation, part-of-speech tagging, dan parsing/chunk tagging.

Text segmentation
Bagian ini akan memecah suatu dokumen menjadi beberapa kumpulan kalimat yang memiliki kesamaan topik. Teknik yang biasa digunakan untuk text segmentation adalah teknik Linier Text Segmentation. Kesamaan topik antara masing-masing kalimat ditentukan dari nilai cosine similarity-nya. Semakin dekat nilainya, semakin tinggi tingkat kesamaan kalimat-kalimat tersebut.
Part-of-Speech (POS) Tagging.
Pada proses ini kalimat-kalimat tadi di-tagging setiap katanya menggunakan Part-of-speech tagging (POS Tagging). POS Tagging merupakan sebuah sistem yang memberikan label kata secara otomatis pada suatu kalimat. Tujuan utama penggunaan proses ini pada modul preprocessing adalah untuk mendapatkan kata benda yang akan digunakan untuk proses penghubungannya nanti (chaining).
Parsing/Chunk Tagging
Pada proses ini kalimat-kalimat tadi diberikan batas setiap chunk-nya. Chunk adalah sebuah atau beberapa kata dalam kalimat yang masih terkait. Teknik yang digunakan sama dengan POS tagging, perbedaannya terletak pada label yang digunakan. Pada POS tagging label yang digunakan adalah JJ, VBI, NNP, dll, sedangkan pada Chunk tagging, label yang digunakan adalah STRT, INSTP, STP, UNSTP. Tujuan utama penggunaan proses ini pada modul preprocessing adalah untuk mendapatkan NP (Noun Phrase) yang akan digunakan/diproses di modul kedua (Noun Filtering).

·         Noun Filtering
Di proses ini, NP (Noun Phrase) yang tadi di ambil dijadikan sebagai Candidate Words. Jadi, untuk setiap segment (kalimat-kalimat yang dikelompokan tadi), akan memiliki daftar Candidate Words.

·         Lexical Chainer
Selanjutnya adalah proses lexical chainer. Untuk setiap segment, himpunan Candidate Words dikembangkan dengan menambahkan daftar sense. Daftar sense didapat dari WordNet.
Dari daftar yang dibuat tadi, chain kemudian dibuat antar Candidate Word yang mempunyai himpunan sense yang beririsan. Bisa jadi, akan ada banyak chain yang terjadi. Selanjutnya, kita akan memilih chain mana yang mewakili segment yang bersesuaian. Sampai sini, tiap segment direpresentasikan atau dimodelkan dengan sebuah chain yang terdiri dari wordcandidate yang mempunyai sense yang beririsan.

·         Sentence Extractor
Modul ini mempunyai dua submodul yaitu Segment Selection, dan Sentence Extraction.
Yang pertama adalah segment selection. Tujuannya adalah untuk memilih text segment yang terkait dengan topik dokumen. Pendekatannya adalah dengan menghitung score dari chainmember. Perhitungan ini dilihat di Paper aslinya. Setelah masing-masing segment dihitung scorenya, kemudian di-ranking. Lalu, hanya N TOP rank yang digunakan untuk proses selanjutnya. N bisa ditentukan dari penelitian/percobaan.
Yang kedua adalah sentence extraction. Setiap kalimat yang ada di dokumen di-ranking berdasarkan perhitungan suatu nilai. Katakanlah score kalimat (i) untuk nilai kalimat ke-i. Secara abstrak, perhitungan score kalimat (i) melibatkan kata-kata yang ada di kalimat ke-i dan juga lexical chain yang terkait kata-kata di kalimat ke-i yang ada di segment yang bersesuaian.
Jadi Hasil Summary adalah ranked list of top-scoring sentences, tergantung N Top Rank yang dipilih serta rasio kompresi summary yang dikehendaki.

Teknik Maximal Marginal Relevance (Cabonell dan Goldstein, 1998)
Algoritma MMR merupakan metode ekstraksi ringkasan yang digunakan untuk meringkas dokumen tunggal maupun multi dokumen. MMR meringkas dokumen dengan melakukan perhitungan kesamaan antara bagian teks. Pada peringkasan dokumen dilakukan proses segmentasi dokumen menjadi kalimat dan dilakukan pengelompokan sesuai dengan gender kalimat tersebut. MMR digunakan dengan mengkombinasikan query yang diberikan user.

Pendekatan Statistika dibagi lagi menjadi tiga, diantaranya :
Teknik Word Frequency (Luhn, 1958)
Secara umum feature yang digunakan untuk mewakili dokumen dalam model raung vector adalah kata. Hal ini karena ekstraksi kata dari dokumen relatif mudah, yaitu hanya mendeteksi deretan karakter yang diakhiri dengan spasi. Jika dirancang bahwa angka tidak merupakan bagian dari kata maka dalam bahasa Indonesia karakter khusus yang mewakili kata hanya tanda hypen (“-“), yang menunjukkan kata ulang, selainnya adalah karakter abjad. Penelitian untuk teks bahasa inggris yang melibatkan frasa menunjukkan bahwa melibatkan frasa dalam feature dapat meningkatkna kinerja clustering. Penelitian tentang deteksi dan ekstraksi frasa dalam bahasa Inggris juga telah cukup banyak dilakukan. Metode seleksi beragam mulai dengan pendekatan statistik sampai pendekatan natural language processing (NLP).
Untuk kasus bahasa Indonesia penelitian di bidang ini masih sangat minim. Dengan latar belakang itu dalam penelitian ini frasa didefinisikan sebagai dua kata yang saling berdekatan yang memiliki makna tertentu yang bisa berbeda dengan makna kata-kata tunggalnya, misalnya “kambing hitam”. Teknik ekstraksi kata ditempuh dengan cara sederhana yaitu melakukan penghitungan frekuensi kemunculan dari pasangan dua kata. Selanjutnya seperti pada kata setelah dibatasi frekuensi minimal kemunculan, analisis variansi frekuensi dilakukan untuk melakukan seleksi. sebagai persamaan berikut:

Description: Description: https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEguRgOx6HOgpck7qE5tCIMofWB78OhKfBcZTzYrKCU3GNTt8NzyAQZfGttS4_bv4Eg3lYZlfdanJVIeu95BBEjM9k1XascioIQYF39zd-LEsPBCOQ36NX1AM3R2boh3CLYC8Rj7kdvb8Zg4/s1600/Word+and+phrase+frequency+criteria.jpg
Dengan qi adalah variansi jika frekuensi minimal kata/frasa muncul dalam analisis adalah I (i=0,1,2,...).
Luhn memakai distribusi kata Zipf’s law untuk mengembangkan kriteria ekstraksi: jika sebuah teks mengandung beberapa kata yang biasanya jarang muncul, maka kalimat-kalimat yang mengandung kata-kata tersebut mungkin penting.

Teknik Cue Words and Heading (Edmudson, 1969)
Pada beberapa genre teks, kata dan frasa tertentu dalam kalimat secara eksplisit menunjukkan seberapa penting kalimat tersebut. Daftar cue phrase beserta (positif dan negatif) ‘goodness score’ biasanya dibangun manual.

Teknik Sentence Position (Lin dan Hoovy, 1997) dan Teknik Position in Text (Baxendale, 1958)
Positional criteria: lokasi tertentu pada teks (heading, judul, paragraf pertama, dll) cenderung mengandung informasi penting. Metoda sederhana dengan mengambil paragraf pertama (lead) sebagai ringkasan biasanya cukup bagus terutama pada artikel berita.

Posting Komentar untuk "TEXT SUMMARIZATION"