У статті розглянуто підходи до форматування табличних даних (HTML, XML, Markdown, CSV) з метою подальшого генерування синтетичних зразків за допомогою великих мовних моделей (LLM) у задачах предиктивного моніторингу. Оскільки реальні дані часто характеризуються незбалансованістю класів, генерування додаткових зразків дає змогу поліпшити навчальні вибірки, підвищуючи ефективність роботи моделей. При цьому важливим постає питання швидкості обробки та вартості запитів, які значною мірою залежать від того, скільки вхідних токенів потребує обраний формат для форматування табличних даних. У межах дослідження проаналізовано витрати обчислювальних ресурсів і тривалість обробки запитів LLM залежно від формату табличних даних. Хоча, згідно із дослідженнями[1], HTML забезпечує найвищий рівень точності, він водночас вимагає суттєво більшої кількості токенів через формат подання таблиць. Така особливість суттєво збільшує об’єм вхідних даних та загальний час опрацювання запиту. Натомість менш об’ємні формати (Markdown та CSV) потребують значно меншу кількість токенів, пришвидшуючи обробку та знижуючи вартість взаємодії з моделлю. Незначне зменшення точності, в порівнянні з HTML, може виявитися прийнятним компромісом, особливо коли стоїть завдання масштабного розширення набору тренувальних даних задля компенсації нестачі прикладів нештатних станів. Такий підхід є ефективним у системах предиктивного моніторингу, де час реакції та обсяг оброблених даних безпосередньо впливають на швидкість виявлення аномалій та стійкості системи в цілому. Результати дослідження підтверджують, що Markdown і CSV, завдяки меншому об’єму вхідних даних, дають змогу зменшити тривалість обробки запитів та витрати на генерування синтетичних зразків для навчання. У той же час, HTML і XML потенційно залишаються корисними в задачах, де максимально важливим є збереження складної структури й додаткових метаданих, проте ці формати вимагають суттєвіших ресурсів. Таким чином, вибір формату подання табличних даних повинен враховувати вимоги конкретної системи й особливості робочого середовища: від апаратних обмежень і тарифікації за токени до потрібної тривалості обробки запиту.
[1]. Sui, Y., Zhou, M., Zhou, M., Han, S. and Zhang, D. (2024), “Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study”, Proceedings of the 17th ACM International Conference on Web Search and Data Mining (WSDM '24), 4–8 March, Mérida, Yucatán, Mexico. ACM.
[2]. Луцюк, А.В., 2024. “Предиктивний моніторинг інформаційно-комунікаційних систем за допомогою спеціалізованої моделі машинного навчання”. Вчені записки Таврійського національного університету імені В.І. Вернадського. Серія: Технічні науки, 35(74)(6, ч.1), с. 129–135.
[3]. Aghajanyan, A., Okhonko, D., Lewis, M., Joshi, M., Xu, H., Ghosh, G. and Zettlemoyer, L. (2022) ‘HTLM: Hyper-Text Pre-Training and Prompting of Language Models’, 10th International Conference on Learning Representations (ICLR 2022), 25-29 April.
[4]. Mills, R. (2025) “LUFlow Network Intrusion Detection Data Set”, Kaggle [Data set]. Available at: https://doi.org/10.34740/KAGGLE/DSV/11027911 (Accessed: 15 February 2025).
[5]. Chen, W. (2023) “Large Language Models Are Few(1)-Shot Table Reasoners”, Findings of the Association for Computational Linguistics: EACL 2023, 2 April.
[6]. Dong, H., Cheng, Z., He, X., Zhou, M., Zhou, A., Zhou, F., Liu, A., Han, S. and Zhang, D. (2022) ‘Table Pre-training: A Survey on Model Architectures, Pre-training Objectives, and Downstream Tasks’, Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence (IJCAI-22), 23–29 July, Vienna, Austria.
[7]. Eisenschlos, J.M., Gor, M., Müller, T. and Cohen, W.W. (2021) “MATE: Multi-view Attention for Table Transformer Efficiency”, Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021), 7–11 November, Punta Cana, Dominican Republic. Association for Computational Linguistics.
[8]. Herzig, J., Nowak, P.K., Müller, T., Piccinno, F. and Eisenschlos, J. (2020) ‘TaPas: Weakly supervised table parsing via pre-training’, Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL 2020), 5–10 July, pp. 4320–4333. Association for Computational Linguistics.
[9]. Hulsebos, M., Demiralp, Ç. and Groth, P. (2023) ‘GitTables: A Large-Scale Corpus of Relational Tables’, Proceedings of the ACM on Management of Data, 1(1), pp. 1–17.
[10]. Iida, H., Thai, D., Manjunatha, V. and Iyyer, M. (2021) ‘TABBIE: Pretrained Representations of Tabular Data’, arXiv preprint. Available at: https://doi.org/10.48550/arXiv.2105.02584 (Accessed: 15 February 2025).