Унормовування тексту при докорпусному опрацюванні: досвід застосування

2020;
: сс. 51 - 58
1
Національний університет «Львівська політехніка»

Узагальнено досвід унормування текстів перед внесенням їх у корпус творів Наддністрянської України, створення якого розпочато на кафедрі прикладної лінгвістики Львівської політехніки. Йдеться про тексти художнього стилю. Під унормуванням розуміємо сукупність інформаційних процедур, що роблять текст придатним до внесення його в корпус: приведення всіх текстів до однієї кодової таблиці, перевірку їх на пунктуаційну коректність (однакові за смислом сутності мають бути позначені одним знаком), усунення зайвих символів (наприклад, порожні абзаци, декілька пробілів поспіль і т. ін.), уніфікацію засобів та способів форматування тощо. Як програмне середовище унормування запропоновано редактор MS Word, а для створення додаткового програмного інструментарію – мову програмування Python. Процес унормування текстів містить такі етапи: унормування кодування, унормування графіки, коректура тексту, технічне унормування пунктуації. Для кожного етапу подано його характеристику, вказано проблеми, які виникають при його реалізації та запропоновано шляхи їх подолання. Зроблено висновки.

1. Ellis N. C. (2012). Formulaic language and second language acquisition. Zipfand the phrasal teddy bear’. Annual Review of Applied Linguistics, 32, 17–44.

2. Friederike Müller & Birgit Waibel (n. d.) Corpus linguistics — an introduction. Retrieved January 15, 2020 from https://www.anglistik.uni-freiburg.de/seminar/abteilungen/sprachwissensc...

3. Gries S. Th. (2013). Statistics for Linguistics Using. Berlin.

4. Gries Stefan Th. (2019) Some long overdue additions/corrections (to/of actually all sorts of corpuslinguistics measures). International Journal of Corpus Linguistics, 24 (3), 385 - 412

5. Nancy Ide (2008) Preparation and Analysis of Linguistic Corpora. In S. Schreibman & R. Siemens & J. Unsworth (Eds.) A Companion to Digital Humanities (pp. 289-305). doi:10.1002/9780470999875

6. Perez Paredes. (n. d.) All things corpus & applied linguistics Research methods: corpus linguistics. Retrieved January 15, 2020 from http://www.perezparedes.es/research-methods-corpus-linguistics/

7. Unicode Standard Releases. (n. d.) Unicode – The World Standard for Text and Emoji. Retrieved January 15, 2020 from https://home.unicode.org

8. Бобкова, Т. В. (2014) До визначення корпусної лінгвістики в сучасному мовознавстві. Наукові записки Національного університету «Острозька академія», ( 45), 3-6.

9. Ванівська, О. І. (2012) Основні підходи до аналізу мовних даних у корпусній лінгвістиці. Наукові записки Національного університету «Острозька академія», 27, 3-8.

10. ГРАК (n. d.) Генеральний регіонально анотований корпус української мови. Доступ 15/01/2020 http://uacorpus.org/

11. Данилюк, І. (2013). Корпус текстів для вивчення граматичної службовості. Лінгвістичні студії, 26, 224–229.

12. Дарчук, Н. (2010) Дослідницький корпус української мови: основні засади і перспективи. Вісник Київського національного університету імені Тараса Шевченка, 21, 45-49.

13. Загнітко, А. П. (2015) Встановлення функційної характерології та парадигмально-синтагмального вияву часток в експериментальному дослідницькому лінгвістичному корпусі службовості. In О. Левченко (Ed.) Дані текстових корпусів у лінгвістичних дослідженнях (pp. 46-64).

14. Загнітко, А. & Данилюк, І. (2013). Корпус текстів граматичної службовості. In Прикладна лінгвістика та лінгвістичні технології (pp. 102-112).

15. Кульчицький, І. М. (2015) Технологічні аспекти укладання корпусів текстів. In О. Левченко (Ed.) Дані текстових корпусів у лінгвістичних дослідженнях (pp. 29-45).

16. Кульчицький, І. (2016) Корпуси текстів як лінгвотехнологічне підґрунтя виявлення змін в українській мові. In А. Архангельська (Ed.) XX–XXI століття: жанрово-стильові й лінгвістичні метаморфози в українській мові та літературі (pp. 269-298).

17. Кульчицький І. М. (2014) Технічні аспекти опрацювання комп'ютером природномовної інформації. Вісник Національного університету «Львівська політехніка», 783, 344-353.

18. Друль Орест.(2015) Поправлюваний Франко. Збруч. Отримано 16/01/2020 з https://zbruc.eu/node/35977

19. Русанівський В. М. & Тараненко О. О. & all. (2004). Українська мова: Енциклопедія. Видавництво «Українська енциклопедія ім. М. П. Бажана»

20. Український правопис 2019. (2019) Міністерство освіти і науки України. Отримано 15/01/2020 з https://mon.gov.ua/ua/osvita/zagalna-serednya-osvita/navchalni-programi/... 21. Широков В. А. & all (2005) Корпусна лінгвістика. Довіра.