Overview of the Ukrainian language resources within the multilingual European MULTEXT-East project, v. 4

2013;
: сс. 122 – 129
Authors: 
Kotsyba N.

The article presents an overview of computational resources for the Ukrainian language within a multilingual European MULTEXT-East project (MTE, http://nl.ijs.si/ME/V4) freely available for researchers since May 2010, including a formal representation of morphosyntactic specifications consisting of 1239 unique grammatical tags in the XML, TEI-5 compatible, format and a morphosyntactic lexicon covering over 200000 wordforms with lemmas and morphosyntactic codes.

1. Chiarcos, Christian and Tomaz Erjavec. OWL/DL formalization of the MULTEXT-East morphosyntactic specifications. / Proceedings of the 5th Linguistic Annotation Workshop (LAW-V), held in conjunction with the ACL—HLT 2011, June 2011 Portland, Oregon, USA — P. 11–20.
2. Derzhanski, Ivan and Natalia Kotsyba. Towards a Consistent Morphological Tagset for Slavic Languages: Extending MULTEXT-East for Polish, Ukrainian and Belarusian. / Proceedings of «Metalanguage and Encoding Scheme Design for Digital Lexicography: MONDILEX Third Open Workshop» Bratislava, Slovakia, 15–16 April 2009 — Bratislava — 2009.
3. Erjavec, Tomaž. MULTEXT-East Version 4: Multilingual Morphosyntactic Specifications, Lexicons and Corpora. / Proceedings of the LREC 2010, Malta, 19–21 May — 2010. — P. 131–142.
4. Kotsyba, Natalia, Praktyczny przewodnik po korpusach języka ukraińskiego. / Praktyczny przewodnik po korpusach języków słowiańskich, ed. by Hebal-Jezierska M. — Warsaw — 2013, (forthcoming).
5. Kotsyba, Natalia, Andriy Mykulyak, Igor V. Shevchenko. UGTag: morphological analyzer and tagger for Ukrainian language. / Explorations across Languages and Corpora, Łódź Studies in Language, ed. by Goźdź-Roszkowski S. — 2011.
6. Kotsyba, Natalia, Adam Radziszewski and Ivan Derzhanski. Integrating the Polish language into the MULTEXT-East family: morphosyntactic
specifications, converter, lexicon and corpus. / Proceedings of Research Infrastructure for Digital Lexicography: MONDILEX Fifth Open Workshop, October 14, 2009, Ljubljana, Slovenia. — Ljubljana — 2009.
7. Kotsyba, Natalia, Olha Shypnivska and Magdalena Turska. Linguistic principles of organizing a common morphological tagset for PolUKR (Polish-Ukrainian Parallel Corpus). / Proceedings of the international conference «Intelligent Information Systems, 16–18 June 2008, Zakopane, Poland». — Warsaw — 2008.
8. MULTEXT-East Morphosyntactic Specifications, Version 4. Ukrainian Specifications. / http://nl.ijs.si/ME/V4/msd/html/msd-uk.html
9. PolUKR (Polish-Ukrainian Parallel Corpus) / http://www.domeczek.pl/~polukr/index.php?option=welcome
10. Демська-Кульчицька О. Основи національного корпусу української мови. — К., 2005.
11. Демська О. Текстовий корпус: ідея іншої форми. — К.: ВПЦ НаУКМА, 2011. — 282 p.
12. Корпус української мови. / http://mova.info
13. Коциба Н. Морфосинтаксичне тагування польсько-українського паралельного корпусу (PolUKR) / Proceedings of the International Conference «MegaLing’2008. Horizons of Applied Linguistics and Linguistic Technologies» Parthenit — Crimea, Ukraine, 20–27 September 2008 — Kyiv — 2009.
14. Перебийніс, Валентина і Тетяна Бобкова. Історія лабораторії комп’ютерної лінгвістики КНЛУ. Комп’ютерна лінгвістика: сучасне та майбутнє. Матеріали Міжнародної науково-практичної конференції — К.: КНЛУ, 2012. — 52 с.
15. Широков В.А та ін. Корпусна лінгвістика. — К.: Довіра. 2005.

Kotsyba N. Overview of the Ukrainian language resources within the multilingual European MULTEXT-East project, v. 4 / Natalia Kotsyba // Вісник Національного університету "Львівська політехніка". – 2013. – № 770 : Інформаційні системи та мережі. – С. 122–129. – Бібліографія: 15 назв.