STRATEGI PEMILIHAN KALIMAT PADA PERINGKASAN MULTI DOKUMEN

Satrio Verdianto, Agus Zainal Arifin, Diana Purwitasari

Abstract


Ringkasan berita diartikan sebagai teks yang dihasilkan dari satu atau lebih kalimat yang menyampaikan informasi penting dari berita. Salah satu fase penting dalam peringkasan adalah pembobotan kalimat (sentence scoring). Dimana pada peringkasan berita, metode pembobotannya sebagian besar menggunakan fitur dari berita sendiri. Berdasarkan hasil dari penelitian [3] bahwa untuk pembobotan kalimat pada dokumen yang memiliki karakter teks pendek dan terstruktur seperti berita maka teknik pembobotan kalimat terbaik adalah dengan menggunakan kombinasi dari keempat fitur yaitu word frequency, TF-IDF, posisi kalimat, dan kemiripan kalimat terhadap judul (Resemblance to the title ). Pada penelitian ini kombinasi keempat fitur tersebut dibandingkan dengan kombinasi tiga fitur dan dua fitur dan dievaluasi menggunakan nilai ROUGE-N dan dievaluasi berdasarkan lama waktu eksekusi. Berdasarkan hasil uji coba didapatkan hasil bahwa yang paling optimal diantara keempat kombinasi fitur tersebut adalah kombinasi antara dua buah fitur yakni fitur posisi kalimat dan word frequency dengan nilai ROUGE-N sebesar 0.679 dan lama waktu eksekusi 28.458 detik.

References


Fachrurrozi, M., Yusliani, N., & Yoanita, R. U. (2013). Frequent Term

based Text Summarization for Bahasa Indonesia. International

Conference on Innovations in Engineering and Technology (ICIET'2013)

. Bangkok (Thailand).

Ferreira, R., Cabral, L. d., Lins, R. D., e Silva, G. P., & Freitas, F. (2013).

Assessing sentence scoring techniques for extractive text summarization.

Expert Systems with Applications, 40, 5755–5764.

Ferreira, R., Freitas, F., Cabral, L. d., Lins, R. D., Lima, R., Franc¸a, G., .

. . Favaro, L. (2014). A Context Based Text Summarization System. 11th

IAPR International Workshop on Document Analysis Systems. IEEE.

Holi, M. H. (2006). Integrating tf-idf Weighting With Fuzzy View based

Search. Proceedings of the ECAI Workshop on Text-Based Information

Retrieval (TIR-06). Riva del Garda, Italy.

Karel J., J. S. (2008). Automatic Text Summarization (The State of The

Art 2007 and New Challenges). Znalosti (hal. 1-12). Ústav informatiky a

softvérového inziinierstva: FIIT STU Bratislava.

Lin, C. Y. (2004). ROUGE: a Package for Automatic Evaluation of

Summaries. In Proceedings of Workshop on Text Summarization

Brances Out (hal. 74-81). Barcelona: Association for Computational

Linguistics.

Radev, D. R., Hovy, E. H., & McKeown, K. (2002). Introduction to the

Special Issue on Summarization. Computational Linguistics, 28(4), 399-

Salton, G., & Buckley, C. (1988). TERM-WEIGHTING APPROACHES

IN AUTOMATIC TEXT RETRIEVAL. Information Processing &

Management, 24, 513-523.

Kavita-Ganesan (2016). ROUGE 2.0 Documentation - Java Package for

Evaluation of Summarization Tasks [Online].Tersedia:http://kavitaganesan.

com/content/rouge-2.0-documentation [18 Juli 2016]

Mei, J.-P., & Chen, L. (2012). SumCR: A new subtopic-based extractive

approach for text summarization. Knowl Inf Syst (2012), 31, 527–545.




DOI: http://dx.doi.org/10.36564/njca.v1i2.14

DOI (PDF (Bahasa Indonesia)): http://dx.doi.org/10.36564/njca.v1i2.14.g15

Refbacks

  • There are currently no refbacks.


Copyright (c) 2017 Satrio Verdianto, Agus Zainal Arifin, Diana Purwitasari

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

NJCA(Nusantara Journal of Computers and Its Applications)
Published by Computer Society of Nahdlatul Ulama, Indonesia.
Office : PO.BOX 1 Paiton Probolinggo kodepos 67291 Jawa Timur, Indonesia

DECREE OF THE MINISTER OF LAW AND HUMAN RIGHTS OF THE REPUBLIC OF INDONESIA
NUMBER AHU-0060541.AH.01.07.YEAR 2016