Інформаційна система перетворення звукового україномовного тексту в письмовий на основі методів NLP та машинного навчання

2022;
: cc. 23 - 51
1
Національний університет «Львівська політехніка», кафедра інформаційних систем та мереж
2
Національний університет "Львівська політехніка", кафедра інформаційних систем та мереж; Університет Оснабрюка, Інститут комп’ютерних наук, Німеччина
3
Університет Оснабрюка, Інститут комп’ютерних наук, Німеччина; Житомирський держаний університет імені Івана Франка, кафедра професійно-педагогічної, спеціальної освіти, андрагогіки та управління, Україна

Розпізнавання мовлення передбачає різні моделі, методи та алгоритми аналізу та опрацювання записаного голосу користувача. Завдяки цьому люди можуть керувати різними системами, які підтримують один із видів розпізнавання мовлення. Система перетворення мовлення на текст є одним із видів розпізнавання мовлення, що використовує розмовні дані для подальшого їх опрацювання. Також передбачено декілька етапів для опрацювання аудіофайла, під час якого використовують електроакустичні засоби, алгоритми фільтрації в аудіофайлі для виокремлення релевантних звуків, електронні масиви даних для вибраної мови, а також математичні моделі, які складають із фонем найімовірніші слова. Завдяки перетворенню мовлення на текст істотно пришвидшується та полегшується робота, а також знижується рівень стресу в людей, професії яких тісно пов’язані із набиранням великих текстів на клавіатурі. Окрім цього, такі системи допомагають бізнесу, адже концепція віддаленої праці стає все популярнішою, а отже, компанії потребують інструментів для запису та систематизації нарад у вигляді письмового тексту. Об’єктом дослідження є процес перетворення україномовного тексту на письмовий на основі методів NLP та машинного навчання. Предмет дослідження – алгоритми опрацювання файлів для виокремлення релевантних звуків та розпізнавання фонем, а також математичні моделі для розпізнавання масиву фонем як конкретних слів. Метою виконання роботи є проєктування та розроблення інформаційної системи для перетворення звукового україномовного тексту на письмовий на основі Web-додатка Ukrainian Speech-to-text, який є технологією для точного та легкого аналізу україномовних аудіофайлів та подальшої їх транскрипції у текст. Застосунок підтримує завантаження файлів із файлової системи та запис, із використанням мікрофона, а також збереженням проаналізованих даних. Також у статті описано етапи проєктування та загальну типову архітектуру розробленої системи перетворення звукового україномовного тексту на письмовий. Як свідчать результати експериментальної апробації розробленої системи, кількість слів ніяк не впливає на точність алгоритму перетворення, а зменшення відсотка невелике і спричинене складністю слів та низькою якістю мікрофона, а отже, і записаного аудіофайла.

 

  1. Драґан, Я., Джичка, Н. (2010). Виявлення патології голосу на основі статистичної обробки голосних україномовних дикторів. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 686. C. 250–254.
  2. Tymoshenko, K., Vysotska, V., Kovtun, O., Holoshchuk, R., Holoshchuk. S. (2021). Real-time Ukrainian text recognition and voicing. CEUR Workshop Proceedings, No. 2870, 357–387.
  3. Tymoshenko, K. Vysotska, V. (2020). Algorithm of Text Recognizing in Ukrainian on the Video Mode. Computational linguistics and intelligent systems : proceedings of the 4nd International conference, 23–24 April 2020, Lviv, Ukraine, 81–89.
  4. Dmytriv, A., Vysotska, V., Bublyk, M. (2021). The Speech Parts Identification for Ukrainian Words Based on VESUM and Horokh Using. Computer Sciences and Information Technologies (CSIT): proceedings of the IEEE 16th International Conference, 22–25 Sept. 2021, Lviv, Ukraine, 21–33. DOI: 10.1109/CSIT52700.2021.9648813.
  5. Dmytriv, A., Holoshchuk, S., Chyrun, L., Holoshchuk, R. (2022). Comparative Analysis of Using Different Parts of Speech in the Ukrainian Texts Based on Stylistic Approach. CEUR Workshop Proceedings, Vol. 3171, 546– 560.
  6. Kubinska, S., Vysotska, V., Matseliukh, Y. (2021). User Mood Recognition and Further Dialog Support. Computer Sciences and Information Technologies (CSIT): proceedings of the IEEE 16th International Conference, 22– 25 Sept. 2021, Lviv, Ukraine, 34–39. DOI: 10.1109/CSIT52700.2021.9648610.
  7. Kubinska, S., Holoshchuk, R., Holoshchuk, S., Chyrun, L. (2022). Ukrainian Language Chatbot for Sentiment Analysis and User Interests Recognition based on Data Mining. CEUR Workshop Proceedings, Vol. 3171, 315–327.
  8. Dyriv, A., Andrunyk, V., Burov, Y., Karpov, I., Chyrun, L. (2021). The user’s psychological state identification based on Big Data analysis for person’s electronic diary. Computer science and information technologies: proceedings of IEEE 16th International conference on computer science and information technologies. Lviv, Ukraine, 22–25 September, 2021, 101–112. DOI: 10.1109/CSIT52700.2021.9648810.
  9. Berko, A., Matseliukh, Y., Ivaniv, Y., Chyrun, L., Schuchmann, V. (2021). The text classification based on Big Data analysis for keyword definition using stemming. Computer science and information technologies: proceedings of IEEE 16th International conference on computer science and information technologies. Lviv, Ukraine, 22–25 September, 2021, 184–188. 10.1109/CSIT52700.2021.9648764.
  10. Aksonov, D., Gozhyj, A., Kalinina, I., Vysotska, V. (2021). Question-Answering Systems Development Based on Big Data Analysis. Computer Sciences and Information Technologies (CSIT): proceedings of the IEEE 16th International Conference, 22–25 Sept. 2021, Lviv, Ukraine, 113–118. DOI: 10.1109/CSIT52700.2021.9648631.
  11. Лозицький, О. А. (2015). Прикладна програмна система опрацювання україномовних технічних текстів для людей з вадами зору. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 832. С. 315–331.
  12. Лозицький, О. А., Кунанець, Н. Е. (2014). Система опрацювання технічних текстів українською мовою з метою їх адаптації для людей з вадами зору. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 805. С. 316– 324.
  13. Лозицький, О. А., Пасічник, В. В. (2010). Комп’ютерні засоби освітніх процесів для людей з вадами зору. Аналітичний огляд. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 673. С. 325–339.
  14. Кунанець, Н. Е., Лозицький, О. А., Пасічник, В. В. (2011). Організація освітніх та інформаційних процесів для людей з вадами зору із застосуванням спеціальних. Інноваційні комп’ютерні технології у вищій школі : матеріали 3-ї Науково-практичної конференції, 8–12 жовтня 2011 року, Львів. С. 156–159.
  15. Лозицький, О. А., Пасічник, В. В. (2010). Стандарти, структура та технологія створення книг, що “розмовляють”. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 689. С. 281–294.
  16. Кунанець, Н. Е., Лозицький, О. А., Пасічник, В. В. (2016). Інформаційні технології озвучування українською мовою математичних формул для осіб з вадами зору. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 843. С. 84–93.
  17. Давидов, М. (2013). Синтез видимої артикуляції віртуального персонажа з аудіопотоку для системи сурдоперекладу. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 771. С. 94–100.
  18. Крак Ю. В., Лозинська О. В., Пасічник В. В., Тернов А. С., Шкільнюк, Д. В. (2016). Математичні методи та прикладні інформаційні технології моделювання, перекладу та навчання для української жестової мови. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 854. С. 210–227.
  19. Чабан, В. (2007). Два штрихи до українського правопису. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 593. С. 103–105.
  20. Кунанець, Н. Е., Малиновський, О. Б. (2011). Інформаційно-мультимедійний продукт у бібліотеках. Сучасні проблеми діяльності бібліотеки в умовах інформаційного суспільства: матеріали третьої науково- практичної конференції, 29 вересня 2011 року, Львів. С. 225–229.
  21. Dovbysh, A., Alieksieiev, V. (2018). Embedding speech recognition tools for custom software: Engines Overview. Computational linguistics and intelligent systems : proceedings of the 2nd International conference, 25–27 June 2018, Lviv, Ukraine. P. 114–121.
  22. Lobur, M., Romaniuk, A., Romanyshyn, M. (2012). Defining an approach for deep sentiment analysis of reviews in Ukrainian. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 747. С. 124–130.
  23. Romaniuk, A., Romanyshyn, M. (2013). Named-entity recognition for sentiment analysis of Ukrainian reviews. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 777. С. 83–86.
  24. Kotsyba, N. (2013). Overview of the Ukrainian language resources within the multilingual European MULTEXT-East project. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 770. С. 122–129.
  25. Palinska, O., Kaczala, O. (2013). Regional dialect of modern Lviv: language-contact processes. Гуманітарні та соціальні науки: матеріали IV Міжнародної конференції молодих вчених HSS-2013, 21–23 листопада 2013 року, Львів, Україна. С. 66–71.
  26. Boiko, D. (2020). Using of Natural Language Processing in Chatbot. Computational linguistics and intelligent systems : proceedings of the 4nd International conference, 23–24 April 2020, Lviv, Ukraine. P. 410–415.
  27. Басюк, Т. М., Василюк, А. С. (2019). Просування інтернет-ресурсів з використанням технологій голосового пошуку. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 5. С. 3–13. DOI: 10.23939/sisn2019.01.003.
  28. Шевчук, Р. П. (2013). Ідентифікація та виконання голосових команд персональними мобільними помічниками із використанням продукційної моделі представлення знань. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 773. С. 143–150.
  29. Васильцов, І. В., Карпінський, М. П., Кавка, С. Б. (2003). Структура системи аутентифікації суб’єктів за голосом. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 471. С. 144–148.
  30. Hnatyuk, M. (2013). Prevailing tendencies of North Lemkian resettled dialects in Western Ukraine: phonetic aspect. Гуманітарні та соціальні науки: матеріали IV Міжнародної конференції молодих вчених HSS-2013, 21– 23 листопада 2013 року, Львів, Україна. С. 78–79.
  31. Галич, Ю. (2012). Порівняльний аналіз сучасних систем розпізнавання мови. 70–та студентська науково–технічна конференція: збірник тез доповідей, жовтень – листопад 2012 року, Нац. ун-т “Львівська політехніка”. C. 198–199.
  32. Nyzhnyk, O., Burov, Y., Zavushchak, I. (2020). Intelligent  Climate Control  System in Office  Space. Computational linguistics and intelligent systems: proceedings of the 4nd International conference, 23–24 April 2020, Lviv, Ukraine. P. 349–351.
  33. Рашкевич, Ю., Шиманьські, З., Фігура, Р. (2010). Динаміка зміни тривалостей структурних елементів дифтонгів польської мови у різних темпах вимови. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 672. С. 211–214.
  34. Gadek, J. (2005). The database of emotional speech. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 534. С. 165–172.
  35. Дацишин,  Х.  (2018).  Можливості  прямої  мови  у  відтворенні  усного  мовлення  в  друкованому медіатексті. Вісник Нац. ун-ту “Львівська політехніка”. Вип. 896. С. 145–149.
  36. Warren, E. (2018). The 44 Phonemes in English. URL: https://www.dyslexia-reading-well.com/44-phonemes- in-english.html.
  37. The Past, Present, and Future of Speech-to-Text and AI Transcription (2022). URL: https://imerit.net/blog/the- past-present-and-future-of-speech-to-text-and-ai-transcription-all-una/.
  38. Innovative  Uses  of  Speech  Recognition  Today.  (2021).  URL:  https://summalinguae.com/language- technology/innovative-uses-of-speech-recognition/.
  39. Tebelskis,            J.          (1995).           Speech           Recognition             using           Neural           Networks.             URL: https://isl.anthropomatik.kit.edu/pdf/Tebelskis1995.pdf.
  40. Gupta, T. (2017). Deep Learning: Feedforward Neural Network. URL: https://towardsdatascience.com/deep- learning-feedforward-neural-network-26a6705dbdc7.
  41. Recurrent Neural Networks (2022). URL: https://www.ibm.com/cloud/learn/recurrent-neural-networks.
  42. Google Cloud Speech-to-text (2022). URL: https://cloud.google.com/speech-to-text.
  43. IBM Cloud Watson Speech-to-text (2022). URL: https://www.ibm.com/cloud/watson-speech-to-text.
  44. Microsoft Dictate (2022). URL: https://www.microsoft.com/en-us/garage/profiles/dictate/.
  45. Odrey (2022). URL: https://odreyapp.com/.
  46. Кустовська,  О.  В.  (2005).  Методологія  системного  підходу  та  наукових  досліджень.  Тернопіль: Економічна думка. 124 с.
  47. Шершньова, З. Є. (2004). Стратегічне управління. Київ: КНЕУ. 221 с.
  48. Швиданенко, Г., Ревуцька, Н. (2013). Формування бізнес-моделі підприємства. Київ: КНЕУ. 198 с.
  49. StatCounter  Global  Stats  (2022).  Browser  Market  Share  Worldwide  Apr  2021  –  Apr  2022.  URL: https://gs.statcounter.com/browser-market-share.
  50. Most   used   programming   languages   among   developers   worldwide,   as   of   2021   (2022).   URL: https://www.statista.com/statistics/793628/worldwide-developer-survey-most-used-languages/.
  51. Shan,      P.      (2014).       Node.js       –      reasons       to      use,      pros       and      cons,       best      practices!        URL: https://www.voidcanvas.com/describing-node-js/.
  52. Walls, C. (2014). Spring Boot in Action. New York: Manning Publications, 2014.
  53. Nader, Y. (2022). What is Django? Advantages and Disadvantages. URL: https://hackr.io/blog/what-is- django-advantages-and-disadvantages-of-using-django.
  54. Express.js         Mobile        App       Development:         Pros        and      Cons       for       Developers         (2022).        URL: https://apiko.com/blog/express-mobile-app-development/.
  55. Pollack M., Gierke O., Risberg T. et al. (2012). Spring Data: Modern Data Access for Enterprise Java. Sebastopol, California: O’Reilly Media, 2012.
  56. Google Cloud Storage (2022). URL: https://cloud.google.com/storage.
  57. Chason, S., Straub, B. (2014). Pro Git. New York: Apress. 25 с.
  58. MVC Pattern (2022). URL: https://www.tutorialspoint.com/design_pattern/mvc_pattern.htm.
  59. JetBrains Intellij Idea (2022). URL: https://www.jetbrains.com/idea/.
  60. Пасічник, В. В., Резніченко, В. А. (2006). Організація баз даних та знань. Київ: BHV ПИТЕР. 384 c.