prompt formatting

ЕФЕКТИВНІСТЬ ФОРМАТІВ ІНСТРУКЦІЙ LLM ДЛЯ ЗАДАЧ НЕЗБАЛАНСОВАНОСТІ КЛАСІВ ТРЕНУВАЛЬНИХ ДАНИХ У СИСТЕМАХ ПРЕДИКТИВНОГО МОНІТОРИНГУ

У статті розглянуто підходи до форматування табличних даних (HTML, XML, Markdown, CSV) з метою подальшого генерування синтетичних зразків за допомогою великих мовних моделей (LLM) у задачах предиктивного моніторингу. Оскільки реальні дані часто характеризуються незбалансованістю класів, генерування додаткових зразків дає змогу поліпшити навчальні вибірки, підвищуючи ефективність роботи моделей. При цьому важливим постає питання швидкості обробки та вартості запитів, які значною мірою залежать від того, скільки вхідних токенів потребує обраний формат для форматування табличних даних.