У даній роботі представлено Small Synthetic Embedding Dataset, повністю синтетичний набір даних українською мовою, розроблений для навчання, донавчання та оцінки моделей вбудовування текстів. Використання великих мовних моделей дозволяє контролювати різноманітність згенерованих даних за такими аспектами, як NLP-задачі, асиметричність між запитами та документами, наявність інструкцій, підтримка різних мов та уникнення соціальних зміщень. При генерації набору даних було використано підхід без навчання на прикладах цільового завдання до генерації для створення набору пар запитів та відповідних їм текстів українською мовою. Набір даних може бути використаний для оцінки якості мультимовних моделей вбудовування текстів, а також для навчання або донавчання моделей з метою підвищення їхньої ефективності при роботі з україномовними текстами. Робота охоплює детальний опис процесу побудови набору даних, включаючи параметри, що впливають на різноманітність генерованих текстів, використані мовні моделі, а також приклад використання набору даних для оцінки та порівняння відібраних мультимовних моделей вбудовування текстів на задачі семантичної подібності текстів. На відміну від наявних україномовних наборів даних, які переважно базуються на реальних текстах, SED-UA-small є повністю синтетичним, що надає більшу гнучкість у контролі різноманітності та специфічності даних для потреб навчання та оцінки таких моделей, дозволяє швидко та економічно ефективно розширювати набір даних високоякісними записами. Ми використовували комбінацію відкритих та приватних великих мовних моделей різних розмірів для генерації першої версії набору даних, що складається з 112 тисяч пар текстів, розділених на тренувальний (~50%), тестовий (25%) та валідаційний (25%) набори. Дані доступні за посиланням - https://huggingface.co/datasets/suntez13/sed-ua-small-sts-v1.
- Cer, D., Yang, Y., Kong, S., Hua, N., Limtiaco, N., John, R. S., … Kurzweil, R. (2018). Universal sentence encoder. https://doi.org/10.48550/arXiv.1803.11175
- Chaplynskyi, D. (2023). Introducing UberText 2.0: A corpus of modern Ukrainian at scale. 1–10. Association for Computational Linguistics. Retrieved from https://aclanthology.org/2023.unlp-1.1
- Chen, J., Xiao, S., Zhang, P., Luo, K., Lian, D., & Liu, Z. (2024). BGE m3-embedding: Multi-lingual, multi- functionality, multi-granularity text embeddings through self-knowledge distillation. https://doi.org/10.48550/arXiv.2402.03216
- Dementieva, D., Khylenko, V., & Groh, G. (2025). Cross-lingual text classification transfer: The case of ukrainian (O. Rambow, L. Wanner, M. Apidianaki, H. Al-Khalifa, B. D. Eugenio, & S. Schockaert, Eds.). Association for Computational Linguistics. Retrieved from https://aclanthology.org/2025.coling-main.97/
- Enevoldsen, K., Chung, I., Imene Kerboua, Kardos, M., Mathur, A., Stap, D., … Ömer Çağatan. (2025). MMTEB: Massive multilingual text embedding benchmark. https://doi.org/10.48550/arXiv.2502.13595
- Feng, F., Yang, Y., Cer, D., Naveen Arivazhagan, & Wang, W. (2022). Language-agnostic BERT sentence embedding. https://doi.org/10.48550/arXiv.2007.01852
- Granite Embedding Team, IBM. (2024). Granite embedding models. Retrieved from https://github.com/ibm- granite/granite-embedding-models/
- Grattafiori, A., Dubey, A., Abhinav Jauhri, Pandey, A., Abhishek Kadian, Al-Dahle, A., … Rao, A. (2024). The llama 3 herd of models. https://doi.org/10.48550/arXiv.2407.21783
- Lee, J., Dai, Z., Ren, X., Chen, B., Cer, D., Cole, J. R., … Naim, I. (2024). Gecko: Versatile text embeddings distilled from large language models. https://doi.org/10.48550/arXiv.2403.20327
- Niklas Muennighoff, Tazi, N., Magne, L., & Reimers, N. (2023). MTEB: Massive text embedding benchmark. https://doi.org/10.48550/arXiv.2210.07316
- Reimers, N., & Gurevych, I. (2019, November). Sentence-bert: Sentence embeddings using siamese BERT- Networks. Association for Computational Linguistics. https://doi.org/10.48550/arXiv.1908.10084
- Sundar Pichai, Hassabis, D., & Kavukcuoglu, K. (2024, December 11). Introducing Gemini 2.0: our new AI model for the agentic era. Retrieved from Google website: https://blog.google/technology/google-deepmind/google- gemini-ai-update-december-2024/
- Team, G., Riviere, M., Pathak, S., Sessa, P. G., Hardin, C., Surya Bhupatiraju, … Tsitsulin, A. (2024). Gemma 2: Improving open language models at a practical size. https://doi.org/10.48550/arXiv.2408.00118
- Wang, L., Yang, N., Huang, X., Yang, L., Majumder, R., & Wei, F. (2024a). Improving text embeddings with large language models. https://doi.org/10.48550/arXiv.2401.00368
- Wang, L., Yang, N., Huang, X., Yang, L., Majumder, R., & Wei, F. (2024b). Multilingual E5 text embeddings: A technical report. https://doi.org/10.48550/arXiv.2402.05672
- Zhu, Y., Lu, S., Zheng, L., Guo, J., Zhang, W., Wang, J., & Yu, Y. (2018). Texygen: A benchmarking platform for text generation models. Association for Computing Machinery. https://doi.org/10.1145/3209978.3210080