TEXT SUMMARIZATION
A. Latar Belakang
Peringkas teks atau biasa
disebut text summarization merupakan salah satu materi yang bertujuan untuk
memberikan kemudahan kepada para pembaca agar lebih mudah mencari informasi
secara cepat. Hal ini ditandai dengan semakin banyaknya orang yang melakukan
browsing sebagai bentuk kebutuhan akan informasi yang lebih cepat dan
menyingkat waktu, namun tidak mungkin setiap pengguna untuk browsing atau
membaca keseluruhan dokumen. Hal inilah yang harus diperhatikan,oleh karena itu
metode yang memungkinkan pengguna untuk mencari dan menelusuri informasi dengan
cepat dalam koleksi dokumen. Peringkasan dokumen tunggal telah menjadi subjek
fokus beberapa tahun ini dalam masalah kompresi, redundansi kecepatan, dan
pemilihan bagian sangat penting dalam pembentukan ringkasan yang berguna.
Untuk mempermudah dalam
memperoleh Berita Kriminal yang dicari oleh pengguna maka penulis
mengimplementasikan dalam sistem dengan proses pengenalan teks yang disebut
Text Mining. Text Mining adalah proses mengambil data berupa teks dengan sumber
data biasanya dari dokumen dan tujuannya adalah mencari kata-kata yang mewakili
dalam dokumen sehingga dapat dilakukan analisa keterhubungan dalam dokumen.
Dalam pencarian informasi berdasarkan keyword/inputan sangat berguna untuk
pencarian terarah dan berguna untuk mengetahui informasi yang berhubungan
dengan keyword yang dicari.
Dengan adanya makalah yang
membahas tentang Text Summarization ini diharapkan dapat membantu para pembaca
dapat memahami mengenai konsep dasar text summarization, jenis ringkasan dari
text summarization dan pendekatan pada text summarization.
Konsep Dasar Text Summarization
Definisi Text Summarization
Text
summarization adalah proses mengurangi dokumen teks dengan program komputer
untuk menciptakan sebuah ringkasan yang mempertahankan poin yang paling penting
dari dokumen asli. . Metode Ekstraksi bekerja dengan memilih bagian dari kata
yang ada, frase, atau kalimat dalam teks asli untuk membentuk ringkasan.Sebaliknya,
metode abstraksi membangun sebuah representasi semantik internal dan kemudian
menggunakan teknik bahasa generasi alami untuk membuat ringkasan yang lebih
dekat dengan meringkas secara manual . Metode The state-of-the-art abstraktif
masih cukup lemah, sehingga sebagian besar penelitian telah difokuskan pada
metode ekstraktif.
Suatu
artikel yang memiliki ukuran yang panjang, akan mengakibatkan pembaca akan
sangat kesulitan bila harus membaca dan menyerap semua informasi dari artikel
tersebut. Text Summarization akan menghasilkan suatu produk teks yang tetap
memiliki/ mengandung bagian-bagian yang penting dari artikel asli. Hasil
pengujian menunjukkan bahwa proses summary sangat bergantung pada jenis dan
struktur dari artikel. Sistem akan menghasilkan summary yang baik bila jenis
artikel yang diproses adalah jenis ilmiah argumentasi. Sedangkan untuk struktur
artikel, bila suatu artikel memiliki banyak paragraf dan disetiap paragraf
memiliki lebih dari dua kalimat maka mendapatkan hasil summary yang baik.
Sedangkan
menurut Hovy, ringkasan adalah teks yang dihasilkan dari sebuah teks atau
banyak teks, yang mengandung isi informasi dari teks asli dan panjangnya tidak
lebih dari setengah teks aslinya (Hovy, 2001). Penelitian mengenai peringkasan
teks otomatis (automatic text summarization) dengan menggunakan berbagai macam
metode dan pendekatan, diawali sejak tahun 1958 oleh Luhn. Banyak teknik yang
digunakan dalam summarization ini, seperti teknik pendekatan statistika yaitu
teknik word frequency (Luhn, 1958), position in text (Baxendale, 1958), cue
words and heading (Edmudson, 1969), sentence position (Lin dan Hoovy, 1997).
Teknik pendekatan dengannatural language analysis yaitu inverse term frequency
and NLP technique (Aone, 1990), lexical chain (Mc Keown, 1997), maximal maginal
relevance (Cabonell dan Goldstein, 1998).
Karakteristik Peringkasan Teks
Terdapat dua pendekatan
pada peringkasan teks, yaitu ekstraksi (shallower approaches) dan abstraksi
(deeper approaches). Pada teknik ekstraksi, sistem menyalin unit-unit teks yang
dianggap paling penting atau paling informatif dari teks sumber menjadi
ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat
utama, atau paragraf utama. Sedangkan teknik abstraksi melibatkan parafrase
dari teks sumber. Teknik abstraksi mengambil intisari dari teks sumber,
kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang
merepresentasikan intisari teks sumber dalam bentuk berbeda dengan
kalimat-kalimat pada teks sumber. Pada umumnya, abstraksi dapat meringkas teks
lebih kuat daripada ekstraksi, tetapi sistemnya lebih sulit dikembangkan karena
mengaplikasikan teknologi natural language generation yang merupakan bahasan
yang dikembangkan tersendiri.
Berdasarkan
jumlah sumbernya, sebuah ringkasan dapat dihasilkan dari satu sumber
(single-document) atau dari banyak sumber (multi-document). Peringkasan
single-document masukannya berupa sebuah teks dan keluarannya berupa sebuah
teks baru yang lebih singkat. Pada peringkasan multi-document, masukan adalah beberapa
dokumen teks yang memiliki tema sama, biasanya sudah ada dalam satu klaster
kemudian akan dihasilkan keluaran berupa sebuah teks yang lebih singkat yang
merangkum informasi-informasi utama pada klaster masukan.
Suatu
ringkasan dapat bersifat general, yaitu ringkasan yang berupaya mengambil
sebanyak mungkin informasi penting yang mampu menggambarkankeseluruhan isi
teks. Selain itu dapat juga informasi yang diambil untuk ringkasan berdasar
pada querymasukan yang didefinisikan pengguna sistem. Queryoriented atau
user-oriented summarization mencoba mengambil informasi yang relevan dengan
query pengguna dan menampilkannya dalam bentuk ringkasan.
Berdasarkan
fungsinya, sebuah ringkasan dapat memiliki sifat indicative, informative, atau
evaluative. Ringkasan informativeberfungsi menyajikan informasi utama atau yang
paling penting dari teks sumber. Ringkasan indicative memberikan saran untuk
pembacaan lebih lanjut mengenai hal-hal tertentu dalam isi teks. Sedangkan
ringkasanevaluative memberi komentar atau evaluasi terhadap informasi utama
pada teks sumber.
Compression
rate pada proses peringkasan akan menentukan panjang ringkasan yang dihasilkan.
Biasanya diukur berdasarkan persentase dari teks sumber, misalnya ringkasan
sepanjang 10%, 25%, atau 50% dari teks sumber. Selain itu dapat pula diukur
berdasarkan jumlah kata, misalnya ditentukan ringkasan sepanjang 100 kata.
Biasanya, panjang ringkasan tidak lebih dari setengah teks sumber. Gambar
dibawah ini memperlihatkan arsitektur tingkat tinggi peringkasan teks otomatis.
Masukan berupa teks dengan berbagai karakteristik dan keluaran berupa ringkasan
ekstraksi maupun abstraksi.
Metode Secara Umum
Metode dalam penerapan
Text Summarization ini adalah menggunakan metode TF-IDF (Terms Frequency –
Inverse Document Frequency) dan Exhaustive algorithm. Metode TF-IDF berfungsi
untuk menghitung bobot nilai dari setiap kalimat dan relasi antar kalimat.
Sedangkan Exhaustive algorithm berfungsi untuk menghasilkan path dari setiap
penelusuran titik-titik pada graph. Dan kemudian hasil path tersebut akan
menjadi suatu summary.
Metode Text
Summarization terdapat 3 metode secara umum yaitu :
Extraction-based summarization
Dua
jenis summarization sering dibahas dalam literatur adalah ekstraksi keyphrase,
di mana tujuannya adalah untuk memilih kata-kata individu atau frase untuk
“tag” sebuah dokumen, dan summarization dokumen, di mana tujuannya adalah untuk
memilih seluruh kalimat untuk membuat ringkasan paragraf pendek.
Pada
2012, Light Filtering, salah satu metode yang digunakan untuk summarization
kalimat dari dokumen yang dinilai menuju konten utamanya, menunjukkan hasil
yang baik untuk menggunakan summarization pre-processing langkah sebelum
ekstraksi keyphrase.
Abstraction-based summarization
Teknik
ekstraksi hanya menyalin informasi yang dianggap paling penting oleh sistem
untuk ringkasan (misalnya, klausa kunci, kalimat atau paragraf), sedangkan
abstraksi melibatkan parafrase bagian dari dokumen sumber. Secara umum,
abstraksi dapat menyingkat teks lebih kuat dari ekstraksi, tetapi program yang
bisa melakukan hal ini lebih sulit untuk mengembangkan karena mereka memerlukan
penggunaan teknologi natural language generation.
Sementara
beberapa proses telah dilakukan dalam abstractive summarization (menciptakan
sinopsis abstrak secara manual), sebagian besar sistem summarization adalah
ekstraktif (memilih subset dari kalimat untuk menempatkan dalam ringkasan).
Maximum entropy-based summarization
Meskipun
automating abstractive summarization adalah tujuan dari penelitian summarization,
sistem yang paling praktis didasarkan pada beberapa bentuk adalah summarization
ekstraktif. Maximum entropy-based summarization telah berhasil diterapkan untuk
summarization dalam domain siaran berita
Jenis Ringkasan Text Summarization
Pendekatan Peringkas
Teks
Pendekatan Teks Summarization terdapat dua pendekatan, yaitu:
Ekstraksi
(extractive summary)
Pada teknik ekstraksi, sistem
menyalin unit-unit teks yang dianggap paling penting dari sebuah teks menjadi
ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat
utama, atau paragraph utama tanpa ada penambahan kalimat-kalimat baru yang
terdapat pada dokumen aslinya.
Abstraksi
(abstractive summary)
Teknik abstraksi menggunakan
metode linguistic untuk memeriksa dan menafsirkan teks dokumen menjadi
ringkasan. Ringkasan teks tersebut dihasilkan dengan cara menambahkan
kalimat-kalimat baru yang merepresentasikan intisari teks sumber ke dalam
bentuk yang berbeda dengan kalimat-kalimat yang ada pada teks sumber.
Tipe Peringkasan
Teks Otomatis
a.
Ringkasan
yang umum (Generic Summary)
· Perwakilan dari teks
asli yang mencoba untuk mempresentasikan semua feature penting dari sebuah teks
asal.
· Mengikuti pendekatan bottom-up (Information Retrieval).
· Pemakai menginginkan
segala informasi yang penting.
b.
Ringkasan
Berpusat pada Pemakai (Query-driven)
· Peringkasan bersandar
pada spesifikasi kebutuhan informasi pemakai, seperti topic atau query.
· Mengikuti pendekatan
top-down (information Retrieval)
Bentuk Keluaran
Peringkasan Teks Otomatis
1.
Indicative
Indicative adalah ringkasan yang dapat mengidentifikasi topic yang
terdapat pada teks sumber dan dapat memberikan ide ringkas tentang apa yang
tertuang dalam teks sumber.
2.
Informative
Informative adalah ringkasan yang dapat mengidentifikasi informasi tertentu
dari dokumen sumber.
Tahapan
Peringkasan Teks Otomatis
1.
Interpretation
Pada proses ini merupakan menafsir teks sumber untuk mendapatkan
representasi dari teks.
2.
Transformation
Pada proses ini adalah mengubah representasi teks menjadi sebuah
representasi ringkasan teks.
3.
Generation
Pada
proses ini merupakan ringkasan teks dari representasi ringkasan teks.
Pendekatan Pada Text Summarization
Pendekatan pada Text Summarization dibagi
menjadi 2 tipe, diantaranya adalah Pendekatan tradisional dan Pendekatan statistika.
Berikut ini merupakan penjelasan mengenai Pendekatan tradisional dan Pendekatan
statistika pada text summarization.
Pendekatan tradisional dibagi lagi menjadi tiga, diantaranya :
Teknik Inverse Term Frequency and NLP (Aone,
1990)
Dalam berbagai sumber, bahwa
teknik inverse term frequency mencakup pada Algoritma TF-IDF. Metode TF-IDF
merupakan metode untuk menghitung bobot setiap kata yang paling umum digunakan
pada information retrieval. Metode ini juga terkenal efisien, mudah dan
memiliki hasil yang akurat. Metode ini akan menghitung nilai Term Frequency
(TF) dan Inverse Document Frequency (IDF) pada setiap token (kata) di setiap
dokumen dalam korpus. Metode ini akan menghitung bobot setiap token t di
dokumen d dengan rumus:
Wdt = tfdt * IDFt
Dimana :
d :
dokumen ke-d
t :
kata ke-t dari kata kunci
W : bobot
dokumen ke-d terhadap kata ke-t
tf :
banyaknya kata yang dicari pada sebuah dokumen
IDF :
Inversed Document Frequency
Nilai IDF didapatkan dari IDF :
log2 (D/df) dimana :
D :
total dokumen
df :
banyak dokumen yang mengandung kata yang dicari
Setelah
bobot (W) masing-masing dokumen diketahui, maka dilakukan proses pengurutan
dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen
tersebut terhadap kata kunci, demikian sebaliknya.
Dan NLP adalah Natural Language Processing atau dalam bahasa Indonesia
disebut dengan Pemrosesan Bahasa Alami merupakan bidang ilmu komputer,
kecerdasan buatan dan bahasa yang berkaitan dengan interaksi antara komputer
dan bahasa alami manusia. Dengan teknologi yang ada pada NLP, komputer dapat
memahami bahasa manusia, demikian pula sebaliknya, komputer dapat membuat
bahasa yang dimengerti manusia.
Salah
satu fungsi dasar dalam NLP adalah parsing. Parsing, atau analisis sintak,
merupakan proses analisis simbol baik pada bahasa alami maupun bahasa komputer,
sesuai dengan aturan tata bahasa formal. Secara spesifik, banyak hal atau tugas
yang dapat dilakukan oleh komputer menggunakan NLP. Tugas-tugas tersebut antara
lain:
a. Automatic
summarization, yakni membuat ringkasan dari sebuah teks. Sebagaia adalah yang biasa dipakai untuk meringkas
informasi khusus pada media-media elektronik.
b. Machine translation,
yakni menerjemahkan teks dari satu bahasa ke bahasa lainnya. Tugas ini termasuk
tugas yang paling sulit, karena membutuhkan hampir semua macam pengetahuan yang
dimiliki manusia, seperti tata bahasa, semantik, serta pengetahuan umum untuk
melakukan penerjemahan dengan benar.
c. Natural language
generation, yakni mengkonversi informasi dari database komputer ke dalam bahasa
yang dimengerti manusia.
d. Natural language
understanding, mengkonversi teks ke dalam bentuk representasi bahasa formal
yang mudah dimengerti program komputer untuk selanjutnya dimanipulasi.
Kemampuan NPL mencakup identifikasi semantik dari banyak kemungkinan semantik
yang berasal dari ekspresi bahasa alami.
e. Part-of-speech
tagging, yakni memberi label peranan sebuah kata sebuah kalimat, apakah sebagai
kata benda, kata kerja, atau yang lain.
Teknik Lexical Chain (Mc Keown, 1997)
Salah satu metode yang digunakan
dalam text summarization adalah lexical chain. Inti dari metode ini yaitu
keterhubungan antara segment text yang terpilih untuk meminimalisasi hasil
ringkasan yang mempunyai kalimat-kalimat yang tidak berkaitan.
·
Preprocessing
Proses pertama yaitu
preprocessing. Proses ini terdiri dari text segmentation, part-of-speech
tagging, dan parsing/chunk tagging.
Text
segmentation
Bagian ini akan memecah suatu
dokumen menjadi beberapa kumpulan kalimat yang memiliki kesamaan topik. Teknik
yang biasa digunakan untuk text segmentation adalah teknik Linier Text
Segmentation. Kesamaan topik antara masing-masing kalimat ditentukan dari nilai
cosine similarity-nya. Semakin dekat nilainya, semakin tinggi tingkat kesamaan
kalimat-kalimat tersebut.
Part-of-Speech
(POS) Tagging.
Pada proses ini kalimat-kalimat
tadi di-tagging setiap katanya menggunakan Part-of-speech tagging (POS
Tagging). POS Tagging merupakan sebuah sistem yang memberikan label kata secara
otomatis pada suatu kalimat. Tujuan utama penggunaan proses ini pada modul preprocessing
adalah untuk mendapatkan kata benda yang akan digunakan untuk proses
penghubungannya nanti (chaining).
Parsing/Chunk
Tagging
Pada proses ini kalimat-kalimat
tadi diberikan batas setiap chunk-nya. Chunk adalah sebuah atau beberapa kata
dalam kalimat yang masih terkait. Teknik yang digunakan sama dengan POS
tagging, perbedaannya terletak pada label yang digunakan. Pada POS tagging
label yang digunakan adalah JJ, VBI, NNP, dll, sedangkan pada Chunk tagging,
label yang digunakan adalah STRT, INSTP, STP, UNSTP. Tujuan utama penggunaan
proses ini pada modul preprocessing adalah untuk mendapatkan NP (Noun Phrase)
yang akan digunakan/diproses di modul kedua (Noun Filtering).
·
Noun
Filtering
Di proses ini, NP (Noun Phrase) yang
tadi di ambil dijadikan sebagai Candidate Words. Jadi, untuk setiap segment
(kalimat-kalimat yang dikelompokan tadi), akan memiliki daftar Candidate Words.
·
Lexical
Chainer
Selanjutnya adalah proses lexical
chainer. Untuk setiap segment, himpunan Candidate Words dikembangkan dengan
menambahkan daftar sense. Daftar sense didapat dari WordNet.
Dari daftar yang dibuat tadi,
chain kemudian dibuat antar Candidate Word yang mempunyai himpunan sense yang
beririsan. Bisa jadi, akan ada banyak chain yang terjadi. Selanjutnya, kita
akan memilih chain mana yang mewakili segment yang bersesuaian. Sampai sini,
tiap segment direpresentasikan atau dimodelkan dengan sebuah chain yang terdiri
dari wordcandidate yang mempunyai sense yang beririsan.
·
Sentence
Extractor
Modul ini mempunyai dua submodul
yaitu Segment Selection, dan Sentence Extraction.
Yang pertama adalah segment
selection. Tujuannya adalah untuk memilih text segment yang terkait dengan
topik dokumen. Pendekatannya adalah dengan menghitung score dari chainmember.
Perhitungan ini dilihat di Paper aslinya. Setelah masing-masing segment
dihitung scorenya, kemudian di-ranking. Lalu, hanya N TOP rank yang digunakan
untuk proses selanjutnya. N bisa ditentukan dari penelitian/percobaan.
Yang kedua adalah sentence
extraction. Setiap kalimat yang ada di dokumen di-ranking berdasarkan
perhitungan suatu nilai. Katakanlah score kalimat (i) untuk nilai kalimat ke-i.
Secara abstrak, perhitungan score kalimat (i) melibatkan kata-kata yang ada di
kalimat ke-i dan juga lexical chain yang terkait kata-kata di kalimat ke-i yang
ada di segment yang bersesuaian.
Jadi Hasil Summary adalah ranked
list of top-scoring sentences, tergantung N Top Rank yang dipilih serta rasio
kompresi summary yang dikehendaki.
Teknik Maximal Marginal Relevance (Cabonell dan
Goldstein, 1998)
Algoritma MMR merupakan metode
ekstraksi ringkasan yang digunakan untuk meringkas dokumen tunggal maupun multi
dokumen. MMR meringkas dokumen dengan melakukan perhitungan kesamaan antara
bagian teks. Pada peringkasan dokumen dilakukan proses segmentasi dokumen
menjadi kalimat dan dilakukan pengelompokan sesuai dengan gender kalimat
tersebut. MMR digunakan dengan mengkombinasikan query yang diberikan user.
Pendekatan Statistika dibagi lagi menjadi tiga, diantaranya :
Teknik Word
Frequency (Luhn, 1958)
Secara umum feature yang
digunakan untuk mewakili dokumen dalam model raung vector adalah kata. Hal ini
karena ekstraksi kata dari dokumen relatif mudah, yaitu hanya mendeteksi
deretan karakter yang diakhiri dengan spasi. Jika dirancang bahwa angka tidak
merupakan bagian dari kata maka dalam bahasa Indonesia karakter khusus yang
mewakili kata hanya tanda hypen (“-“), yang menunjukkan kata ulang, selainnya
adalah karakter abjad. Penelitian untuk teks bahasa inggris yang melibatkan
frasa menunjukkan bahwa melibatkan frasa dalam feature dapat meningkatkna
kinerja clustering. Penelitian tentang deteksi dan ekstraksi frasa dalam bahasa
Inggris juga telah cukup banyak dilakukan. Metode seleksi beragam mulai dengan
pendekatan statistik sampai pendekatan natural language processing (NLP).
Untuk kasus bahasa Indonesia
penelitian di bidang ini masih sangat minim. Dengan latar belakang itu dalam
penelitian ini frasa didefinisikan sebagai dua kata yang saling berdekatan yang
memiliki makna tertentu yang bisa berbeda dengan makna kata-kata tunggalnya,
misalnya “kambing hitam”. Teknik ekstraksi kata ditempuh dengan cara sederhana
yaitu melakukan penghitungan frekuensi kemunculan dari pasangan dua kata.
Selanjutnya seperti pada kata setelah dibatasi frekuensi minimal kemunculan,
analisis variansi frekuensi dilakukan untuk melakukan seleksi. sebagai
persamaan berikut:
Dengan qi adalah variansi jika
frekuensi minimal kata/frasa muncul dalam analisis adalah I (i=0,1,2,...).
Luhn memakai distribusi kata
Zipf’s law untuk mengembangkan kriteria ekstraksi: jika sebuah teks mengandung
beberapa kata yang biasanya jarang muncul, maka kalimat-kalimat yang mengandung
kata-kata tersebut mungkin penting.
Teknik Cue
Words and Heading (Edmudson, 1969)
Pada beberapa genre teks, kata
dan frasa tertentu dalam kalimat secara eksplisit menunjukkan seberapa penting
kalimat tersebut. Daftar cue phrase beserta (positif dan negatif) ‘goodness
score’ biasanya dibangun manual.
Teknik
Sentence Position (Lin dan Hoovy, 1997) dan Teknik Position in Text (Baxendale,
1958)
Positional criteria: lokasi
tertentu pada teks (heading, judul, paragraf pertama, dll) cenderung mengandung
informasi penting. Metoda sederhana dengan mengambil paragraf pertama (lead)
sebagai ringkasan biasanya cukup bagus terutama pada artikel berita.
Posting Komentar untuk "TEXT SUMMARIZATION"