Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”

Автор(и)

DOI:

https://doi.org/10.17721/um/54(2024).204-221

Ключові слова:

українськомовний медіатекст, токсичний текст, мова ворожнечі, тональність, негативний сентимент, індекс токсичності тексту

Анотація

Вступ. У ХХІ столітті інформаційне поле є повноцінним полем бою. В українському інформаційному просторі все більшої ваги набуває проблема токсичності тексту, мови ворожнечі (ненависті). Саме тому інтерес дослідників до маркерів негативної тональності тексту, особливо медійного, невпинно зростає. У статті описано структуру та результати роботи окремого модуля автоматичної системи статистичної параметризації українськомовних текстів “TextAttributor 1.0” – лінгвістичну експертизу токсичності тексту.

Завдання вирішуються двома методами: методом словників і правил (обчислення статистичних параметрів) та методом машинного навчання.

Результати дослідження ґрунтуються на матеріалі корпусу мережевих медіатекстів політичного дискурсу обсягом 10 млн слововживань. Для реалізації мети було створено лексикографічну базу даних, до якої увійшли три словники: емоціогенів, мови ворожнечі та токсичних сполук, а також сформовано навчальну та контрольну вибірки текстів, на яких проводилося оцінювання параметрів обраної моделі методом машинного навчання. У межах проєкту було обрано ефективну для обчислень архітектуру на основі методу fastText та його інструментальних засобів. Індекс токсичності обчислюється за допомогою вербальної ідентифікації негативного сентименту тексту на базі створеного лінгвістичного та програмного забезпечення й унаявнюється через згенеровану системою лінгвістичну експертизу тексту, що відображає статистичну картку семантичних класів негативної лексики за класифікаційними маркерами лексикографічних списків та висновок нейронної мережі.

Висновки. Система “TextAttributor 1.0” перебуває на етапі тестування і вдосконалення функцій, тому в статті описується проміжна β-версія системи, проте отримані результати з визначення токсичності свідчать, що розроблена методика квантування вербальних засобів за семантичними параметрами (негативна емотивність) методами словників та правил і машинного навчання є ефективною для досягнення поставлених завдань і дає можливість не лише визначити межу між токсичним і нейтральним текстом, а й на підставі властивих тексту лексичних категорій наблизитися до розв’язання проблеми автоматичного виявлення наративу тексту. Методика розроблення модулю визначення токсичності медійного тексту в системі “TextAttributor 1.0” описана й оприлюднена на сторінці вебзастосунку у квітні 2024 р., але у формі науково-дослідницької статті ця інформація друкується вперше.

Інформація про авторів:

Дарчук Наталія Петрівна – доктор філологічних наук, професор кафедри української мови та прикладної лінгвістики Навчально-наукового інституту філології Київського національного університету імені Тараса Шевченка (Україна).

Електронна адреса: n.darchuk@knu.ua

Зубань Оксана Миколаївна – кандидат філологічних наук, доцент кафедри української мови та прикладної лінгвістики Навчально-наукового інституту філології Київського національного університету імені Тараса Шевченка (Україна).

Електронна адреса: oxana.zuban@knu.ua

Робейко Валентина Василівна – асистент кафедри української мови та прикладної лінгвістики Навчально-наукового інституту філології Київського національного університету імені Тараса Шевченка (Україна).

Електронна адреса: valentyna.robeiko@knu.ua

Цигвінцева Юлія Олександрівна – доктор філософії, молодший науковий співробітник відділу лексикології, лексикографії та структурно-математичної лінгвістики Інституту української мови НАН України (Україна).

Електронна адреса: tsyhvintseva@nas.gov.ua

____________

СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ

  1. Дарчук, Н., Зубань, О., Лангенбах, М., & Ходаківська, Я. (2016). АГАТ-семантика: семантичне розмічування корпусу української мови. Українське мовознавство, 1(46), 92–102. https://doi.org/10.17721/um/46(2016)
  2. Дарчук, Н. (2019). Лінгвістичні засади автоматичного сентимент-аналізу українськомовного тексту. Science and education a new dimension, 189, 10–13. https://doi.org/10.31174/SEND-Ph2019-189VII55-02
  3. Залуцька, О., Молчанова, М., Мазурець, О., Мельник, О., & Скрипник, Т. (2023). Метод інтелектуального аналізу емоційної тональності текстової інформації для визначення поведінкових намірів нейромережевими засобами. Вісник Хмельницького національного університету. Технічні науки, 1, 5, 67–73. https://elar.khmnu.edu.ua/server/api/core/bitstreams/7d4a9f0d-53d5-4633-bf69-e360e5206a70/content
  4. Зубань, О. М., & Білоус, В. В. (2018). Автоматичне визначення лексичної тональності українськомовного тексту (на матеріалі новин ТСН). У V Міжнародна науково-практична конференція “Інформаційні технології та взаємодії (IT&I’2018)”, (c.182–183). http://iti.fit.univ.kiev.ua/wp-content/uploads/ITI-2018.pdf
  5. Іванов, Є.М., & Коваленко, С. В. (2017). Розробка web-додатка для аналізу тональності текстової інформації. Інформаційні технології: наука, техніка, технологія, освіта, здоров’я, 1, 18–19. https://core.ac.uk/download/pdf/161789959.pdf
  6. Корпус української мови (2003–2024). Mova.info: лінгвістичний портал. http://www.mova.info/corpus.aspx
  7. Оленич, І., Притула, М., Сінькевич, О., & Хамар, О. (2021). Система автоматичного визначення тональності тексту. Електроніка та інформаційні технології, 15, 16–23. https://doi.org/10.30970/eli.15.2
  8. Почепцов, Г. (2016). Сучасні інформаційні війни. Видавничий дім “Києво-Могилянська академія”.
  9. Романюк, А., & Романишин, М. (2013). Тональний словник української мови на основі сентимент-анотованого корпусу. Українське мовознавство, 43, 63–74.
  10. Словник з медіаграмотності (2022). https://filter.mkip.gov.ua/wp-content/uploads/2022/10/slovnyk.pdf
  11. Стахів, М., & Скопівський, М. (2024). Від аналізу тексту до моделювання природної мови: комплексне дослідження. Вісник Хмельницького національного університету. Серія: Технічні науки, 333 (2), 242–250. https://doi.org/10.31891/2307-5732-2024-333-2-38
  12. Толочко, О. (2023). Тональний словник української мови. https://github.com/Oksana504/sentimentdictionary-uk
  13. Шаховська, Н. Б., & Гірак, Х. Ю. (2017). Шкалювання емоційно забарвлених слів для використання у методах класифікації тональності. Вісник Національного університету “Львівська політехніка”, 872(1), 195–203. https://science.lpnu.ua/sites/default/files/journal-paper/2018/jun/13016/ilovepdfcom-195-203.pdf
  14. Шингалов, Д. В., Мелешко, Є. В., Минайленко, Р. М., & Резніченко, В. А. (2017). Методи автоматичного аналізу тональності контенту у соціальних мережах для виявлення інформаційно-психологічних впливів. Техніка в сільськогосподарському виробництві, галузеве машинобудування, автоматизація, 30, 196–202. http://nbuv.gov.ua/UJRN/znpkntu_2017_30_29
  15. Ялова, К., Яшина, К., Говорущенко, Т., & Тарасюк, О. (2021). Сентимент-аналіз засобами нейронної мережі. Математичне моделювання, 1(44), 30–37. https://doi.org/10.31319/2519-8106.1(44)2021.235906
  16. Cambria, E., Zhang, X., Mao, R., Chen, M., & Kwok, K. (2024). SenticNet 8: Fusing emotion AI and commonsense AI for interpretable, trustworthy, and explainable affective computing. In International Conference on Human-Computer Interaction (HCII). https://sentic.net/publications/
  17. Cui, J., Wang, Z., Ho, S.-B., & Cambria., E. (2023). Survey on sentiment analysis: evolution of research methods and topics. Artifcial Intelligence Review, 56, 8469–8510. https://doi.org/10.1007/s10462-022-10386-z
  18. Joulin, A., Grave, E., Bojanowski, P., Douze, M., Jégou, H., & Mikolov, T. (2016). FastText.zip: Compressing text classification models. Cornell Univercity. Computer Science. Computation and Language. https://doi.org/10.48550/arXiv.1612.03651
  19. Nandwani,, & Verma,R. (2021). A review on sentiment analysis and emotion detection from text. Social Network Analysis and Mining, 11, 81. https://doi.org/10.1007/s13278-021-00776-6
  20. Paul,, Das Chatterjee,A., Misra, D., Majumder, S., Rana, S., Gain, M., & Sil, J. (2024). A survey and comparative study on negative sentiment analysis in social media data. Multimedia Tools and Applications, 1–50. https://doi.org/10.1007/s11042-024-18452-0
  21. Reveilhac,, & Morselli,D. (2022). Dictionary-based and machine learning classification approaches: a comparison for tonality and frame detection on Twitter data. Political Research Exchange, 4(1), 182–184. https://doi.org/ 10.1080/2474736X.2022.2029217
  22. TextAttributor 1.0 (2024). http://ta.mova.info
  23. TextAttributor 1.0. Методика (2024). http://ta.mova.info/methods
  24. Shkvorchenko,N. (2023). Political toxicity in the contrastive perspective (Based on American, British and Ukrainian media discourse). Cognition, communication, discourse, 26, 152–173. https://doi.org/10.26565/2218-2926-2023-26-09

Завантаження

Опубліковано

2024-11-21

Номер

Розділ

ПРИКЛАДНА ЛІНГВІСТИКА

Як цитувати

ДАРЧУК, Н., ЗУБАНЬ, О., РОБЕЙКО, В., & ЦИГВІНЦЕВА, Ю. (2024). Індексування негативного сентименту українськомовного тексту системою “TextAttributor 1.0”. Українське мовознавство, 1(54), 204-221. https://doi.org/10.17721/um/54(2024).204-221

Схожі статті

1-10 з 60

Ви також можете розпочати розширений пошук схожих статей для цієї статті.

Статті цього автора (цих авторів), які найбільше читають