IDENTIFIKASI DAN NORMALISASI TEKS SLANG DENGAN FASTTEXT PADA TWITTER DALAM BAHASA INDONESIA

Authors

  • pande sindu univeristas pendidikan ganesha
  • Agus Aan Jiwa Permana Universitas Pendidikan Ganesha
  • I Nyoman Saputra Wahyu Wijaya universitas pendidikan ganesha

DOI:

https://doi.org/10.23887/jptkundiksha.v21i1.66381

Keywords:

slang, normalisasi, fasttext, NLP

Abstract

Salah satu dampak yang signifikan dari popularitas media sosial adalah munculnya istilah slang yang semakin banyak. Istilah slang adalah bahasa yang digunakan oleh kelompok-kelompok tertentu untuk berkomunikasi secara informal. Slang juga dapat muncul melalui singkatan, penggunaan kata-kata yang berbeda dari arti aslinya, atau penggabungan kata-kata yang tidak konvensional. Dalam pengolahan bahasa alami (Natural Language Processing) Slang sering kali memiliki makna yang tidak jelas atau ambigu, dan kata-kata slang dapat memiliki konotasi yang berbeda tergantung pada konteks dan subkultur tertentu. Ini dapat menyebabkan kesalahan dalam pemrosesan bahasa alami dan menghasilkan hasil yang tidak akurat atau salah dalam tugas seperti klasifikasi teks atau analisis sentimen. Dari permasalahan tersebut dalam penelitian ini dikembangkan suatu metode untuk mengidentifikasi dan melakukan normalisasi slang pada kalimat yang akan diproses oleh NLP. Proses normalisasi slang ke bahasa yang lebih standar dilakukan dengan memanfaatkan pretrain model dari fasttext untuk mencari kata – kata yang memiliki kedekatan dengan slang. Data yang digunakan pada penelitian ini didapatkan dari sosial media twitter. Sebelum dinormalisasi data melewati beberapa proses seperti preprocessing data yang meliputi proses cleaning, case folding, dan stopword removal kemudian dilanjutkan dengan proses identifikasi slang pada kalimat dan terakhir dilakukan proses normalisasi slang yang didapatkan. Penelitian ini menemukan bahwa metode fasttext masih belum cukup baik melakukan normalisasi slang dikarenakan masih ada sekitar 1329 data dari 3239 data yang tidak berhasil dinormalisasi dengan baik yaitu sekitar 41%. Penelitian ini memberikan kontribusi dalam membantu proses pengolahan kata yang lebih baik untuk NLP.

References

W. Trimastuti, “an Analysis of Slang Words Used in Social Media,” J. Dimens. Pendidik. dan Pembelajaran, vol. 5, no. 2, pp. 64–68, 2017, doi: 10.24269/dpp.v5i2.497.

M. Oktaviana, Z. A. Achmad, H. Arviani, and K. Kusnarto, “Budaya komunikasi virtual di Twitter dan Tiktok: Perluasan makna kata estetik,” Satwika Kaji. Ilmu Budaya dan Perubahan Sos., vol. 5, no. 2, pp. 173–186, 2021, doi: 10.22219/satwika.v5i2.17560.

R. C. Cenderamata, “Abreviasi dalam Percakapan Sehari-Hari di Media Sosial: Suatu Kajian Morfologi,” Metahumaniora, vol. 8, no. 2, p. 238, 2018, doi: 10.24198/mh.v8i2.20699.

S. Irawan, I. N. Sudika, and R. Hidayat, “Karakteristik Bahasa Gaul Remaja sebagai Kreativitas Berbahasa Indonesia pada Komentar Status Inside Lombok di Instagram,” J. Bastrindo, vol. 1, no. 2, pp. 201–213, 2020, doi: 10.29303/jb.v1i2.44.

Z. R. N. S. Prasetija, A. Romadhony, and E. B. Setiawan, “Analisis Pengaruh Normalisasi Teks pada Klasifikasi Sentimen Ulasan Produk Kecantikan,” e-Proceeding Eng., vol. 9, no. 3, pp. 1769–1775, 2022, [Online]. Available: https://openlibrarypublications.telkomuniversity.ac.id/index.php/engineering/article/view/18184/17795.

R. Riyaddulloh and A. Romadhony, “Normalisasi Teks Bahasa Indonesia Berbasis Kamus Slang Studi Kasus: Tweet Produk Gadget Pada Twitter,” eProceedings Eng., vol. 8, no. 4, pp. 4216–4228, 2021, [Online]. Available: https://openlibrarypublications.telkomuniversity.ac.id/index.php/engineering/article/view/15246/14969.

M. A. Nur and N. Wardhani, “Optimasi Normalisasi Kata Pada Data Twitter Untuk Meningkatkan Akurasi Analisis Sentimen (Studi Kasus Respon Masyarakat Terhadap Layanan Teman Bus),” J. Fokus Elektroda, vol. 07, no. 04, pp. 237–243, 2022, [Online]. Available: https://elektroda.uho.ac.id/index.php/journal/article/view/21%0Ahttps://elektroda.uho.ac.id/index.php/journal/article/download/21/15.

F. Zuhad and N. Wilantika, “Perbandingan Penggunaan Kamus Normalisasi dalam Analisis Sentimen Berbahasa Indonesia,” J. Linguist. Komputasional, vol. 5, no. 1, pp. 13–23, 2022.

T. Malik Iryana and P. Pandu Adikara, “Analisis Sentimen Masyarakat Terhadap Mass Rapid Transit Jakarta Menggunakan Metode Naïve Bayes Dengan Normalisasi Kata,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 5, no. 6, pp. 2548–964, 2021, [Online]. Available: http://j-ptiik.ub.ac.id.

K. K. Agustiningsih, E. Utami, and M. A. Alsyaibani, “Sentiment Analysis of COVID-19 Vaccines in Indonesia on Twitter Using Pre-Trained and Self-Training Word Embeddings,” J. Ilmu Komput. dan Inf., vol. 15, no. 1, pp. 39–46, 2022, doi: 10.21609/jiki.v15i1.1044.

P. Mojumder, M. Hasan, M. F. Hossain, and K. M. A. Hasan, “A study of fasttext word embedding effects in document classification in bangla language,” Lect. Notes Inst. Comput. Sci. Soc. Telecommun. Eng. LNICST, vol. 325 LNICST, no. March 2021, pp. 441–453, 2020, doi: 10.1007/978-3-030-52856-0_35.

A. G. D’Sa, I. Illina, and D. Fohr, “BERT and fastText Embeddings for Automatic Detection of Toxic Speech,” Proc. 2020 Int. Multi-Conference Organ. Knowl. Adv. Technol. OCTA 2020, 2020, doi: 10.1109/OCTA49274.2020.9151853.

L. Mutawalli, M. T. A. Zaen, and W. Bagye, “KLASIFIKASI TEKS SOSIAL MEDIA TWITTER MENGGUNAKAN SUPPORT VECTOR MACHINE (Studi Kasus Penusukan Wiranto),” J. Inform. dan Rekayasa Elektron., vol. 2, no. 2, p. 43, 2019, doi: 10.36595/jire.v2i2.117.

Downloads

Published

2024-01-30