IDENTIFIKASI DAN NORMALISASI TEKS SLANG DENGAN FASTTEXT PADA TWITTER DALAM BAHASA INDONESIA
DOI:
https://doi.org/10.23887/jptkundiksha.v21i1.66381Keywords:
slang, normalisasi, fasttext, NLPAbstract
Salah satu dampak yang signifikan dari popularitas media sosial adalah munculnya istilah slang yang semakin banyak. Istilah slang adalah bahasa yang digunakan oleh kelompok-kelompok tertentu untuk berkomunikasi secara informal. Slang juga dapat muncul melalui singkatan, penggunaan kata-kata yang berbeda dari arti aslinya, atau penggabungan kata-kata yang tidak konvensional. Dalam pengolahan bahasa alami (Natural Language Processing) Slang sering kali memiliki makna yang tidak jelas atau ambigu, dan kata-kata slang dapat memiliki konotasi yang berbeda tergantung pada konteks dan subkultur tertentu. Ini dapat menyebabkan kesalahan dalam pemrosesan bahasa alami dan menghasilkan hasil yang tidak akurat atau salah dalam tugas seperti klasifikasi teks atau analisis sentimen. Dari permasalahan tersebut dalam penelitian ini dikembangkan suatu metode untuk mengidentifikasi dan melakukan normalisasi slang pada kalimat yang akan diproses oleh NLP. Proses normalisasi slang ke bahasa yang lebih standar dilakukan dengan memanfaatkan pretrain model dari fasttext untuk mencari kata – kata yang memiliki kedekatan dengan slang. Data yang digunakan pada penelitian ini didapatkan dari sosial media twitter. Sebelum dinormalisasi data melewati beberapa proses seperti preprocessing data yang meliputi proses cleaning, case folding, dan stopword removal kemudian dilanjutkan dengan proses identifikasi slang pada kalimat dan terakhir dilakukan proses normalisasi slang yang didapatkan. Penelitian ini menemukan bahwa metode fasttext masih belum cukup baik melakukan normalisasi slang dikarenakan masih ada sekitar 1329 data dari 3239 data yang tidak berhasil dinormalisasi dengan baik yaitu sekitar 41%. Penelitian ini memberikan kontribusi dalam membantu proses pengolahan kata yang lebih baik untuk NLP.
References
W. Trimastuti, “an Analysis of Slang Words Used in Social Media,” J. Dimens. Pendidik. dan Pembelajaran, vol. 5, no. 2, pp. 64–68, 2017, doi: 10.24269/dpp.v5i2.497.
M. Oktaviana, Z. A. Achmad, H. Arviani, and K. Kusnarto, “Budaya komunikasi virtual di Twitter dan Tiktok: Perluasan makna kata estetik,” Satwika Kaji. Ilmu Budaya dan Perubahan Sos., vol. 5, no. 2, pp. 173–186, 2021, doi: 10.22219/satwika.v5i2.17560.
R. C. Cenderamata, “Abreviasi dalam Percakapan Sehari-Hari di Media Sosial: Suatu Kajian Morfologi,” Metahumaniora, vol. 8, no. 2, p. 238, 2018, doi: 10.24198/mh.v8i2.20699.
S. Irawan, I. N. Sudika, and R. Hidayat, “Karakteristik Bahasa Gaul Remaja sebagai Kreativitas Berbahasa Indonesia pada Komentar Status Inside Lombok di Instagram,” J. Bastrindo, vol. 1, no. 2, pp. 201–213, 2020, doi: 10.29303/jb.v1i2.44.
Z. R. N. S. Prasetija, A. Romadhony, and E. B. Setiawan, “Analisis Pengaruh Normalisasi Teks pada Klasifikasi Sentimen Ulasan Produk Kecantikan,” e-Proceeding Eng., vol. 9, no. 3, pp. 1769–1775, 2022, [Online]. Available: https://openlibrarypublications.telkomuniversity.ac.id/index.php/engineering/article/view/18184/17795.
R. Riyaddulloh and A. Romadhony, “Normalisasi Teks Bahasa Indonesia Berbasis Kamus Slang Studi Kasus: Tweet Produk Gadget Pada Twitter,” eProceedings Eng., vol. 8, no. 4, pp. 4216–4228, 2021, [Online]. Available: https://openlibrarypublications.telkomuniversity.ac.id/index.php/engineering/article/view/15246/14969.
M. A. Nur and N. Wardhani, “Optimasi Normalisasi Kata Pada Data Twitter Untuk Meningkatkan Akurasi Analisis Sentimen (Studi Kasus Respon Masyarakat Terhadap Layanan Teman Bus),” J. Fokus Elektroda, vol. 07, no. 04, pp. 237–243, 2022, [Online]. Available: https://elektroda.uho.ac.id/index.php/journal/article/view/21%0Ahttps://elektroda.uho.ac.id/index.php/journal/article/download/21/15.
F. Zuhad and N. Wilantika, “Perbandingan Penggunaan Kamus Normalisasi dalam Analisis Sentimen Berbahasa Indonesia,” J. Linguist. Komputasional, vol. 5, no. 1, pp. 13–23, 2022.
T. Malik Iryana and P. Pandu Adikara, “Analisis Sentimen Masyarakat Terhadap Mass Rapid Transit Jakarta Menggunakan Metode Naïve Bayes Dengan Normalisasi Kata,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 5, no. 6, pp. 2548–964, 2021, [Online]. Available: http://j-ptiik.ub.ac.id.
K. K. Agustiningsih, E. Utami, and M. A. Alsyaibani, “Sentiment Analysis of COVID-19 Vaccines in Indonesia on Twitter Using Pre-Trained and Self-Training Word Embeddings,” J. Ilmu Komput. dan Inf., vol. 15, no. 1, pp. 39–46, 2022, doi: 10.21609/jiki.v15i1.1044.
P. Mojumder, M. Hasan, M. F. Hossain, and K. M. A. Hasan, “A study of fasttext word embedding effects in document classification in bangla language,” Lect. Notes Inst. Comput. Sci. Soc. Telecommun. Eng. LNICST, vol. 325 LNICST, no. March 2021, pp. 441–453, 2020, doi: 10.1007/978-3-030-52856-0_35.
A. G. D’Sa, I. Illina, and D. Fohr, “BERT and fastText Embeddings for Automatic Detection of Toxic Speech,” Proc. 2020 Int. Multi-Conference Organ. Knowl. Adv. Technol. OCTA 2020, 2020, doi: 10.1109/OCTA49274.2020.9151853.
L. Mutawalli, M. T. A. Zaen, and W. Bagye, “KLASIFIKASI TEKS SOSIAL MEDIA TWITTER MENGGUNAKAN SUPPORT VECTOR MACHINE (Studi Kasus Penusukan Wiranto),” J. Inform. dan Rekayasa Elektron., vol. 2, no. 2, p. 43, 2019, doi: 10.36595/jire.v2i2.117.
Downloads
Published
Issue
Section
License
Authors who publish with the JPTK agree to the following terms:- Authors retain copyright and grant the journal the right of first publication with the work simultaneously licensed under a Creative Commons Attribution License (CC BY-SA 4.0) that allows others to share the work with an acknowledgment of the work's authorship and initial publication in this journal
- Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgment of its initial publication in this journal.
- Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work. (See The Effect of Open Access)