SED-UA-small: україномовний синтетичний набір даних для моделей вбудовування тексту
У даній роботі представлено Small Synthetic Embedding Dataset, повністю синтетичний набір даних українською мовою, розроблений для навчання, донавчання та оцінки моделей вбудовування текстів. Використання великих мовних моделей дозволяє контролювати різноманітність згенерованих даних за такими аспектами, як NLP-задачі, асиметричність між запитами та документами, наявність інструкцій, підтримка різних мов та уникнення соціальних зміщень.