Можливості та обмеження великих мовних моделей

2024;
: cc. 286-300
1
Національний університет «Львівська політехніка», кафедра систем автоматизованого проектування
2
Національний університет «Львівська політехніка», кафедра систем автоматизованого проектування
3
Національний університет Львівська політехніка
4
Національний університет Львівська політехніка

Робота присвячена дослідженню великих мовних моделей (ВММ) та підходів для підвищення ефективності їх використання у новому сервісі. Стрімкий розвиток ВММ, заснованих на архітектурі трансформерів, відкрив нові можливості в галузі обробки природної мови та автоматизації різноманітних завдань. Однак, використання повного потенціалу цих моделей вимагає ретельного підходу та врахування численних факторів.

Здійснено огляд еволюції великих мовних моделей, виділено провідні компанії, які займаються дослідженнями та розробкою ефективних систем. Розглянуто будову цих моделей та способи представлення внутрішніх знань. Описано ключові підходи до навчання, включаючи збирання та попередню обробку даних, а також вибір відповідної архітектури нейронних мереж, що застосовуються у великих мовних моделях. Зазначено, що найбільшого прориву досягнуто за допомогою нейромережі Трансформер, заснованої на механізмі уваги.

Проведено дослідження та наведено порівняння популярних моделей на базі архітектури трансформера, а саме: GPT, Claude та Gemini. Визначено метрики останніх версій з відкритими API, унікальні особливості, сильні та слабкі сторони, можливості та обмеження.

Актуальність теми полягає в стрімкому розвитку технологій обробки природної мови та зростанні попиту на великі мовні моделі в різних галузях. Ефективне використання цих моделей має величезний потенціал для підвищення продуктивності та якості роботи з текстовими даними. Однак, через складність архітектури та великі обсяги даних, необхідних для навчання, вибір та налаштування оптимальної моделі для конкретної задачі є непростим завданням.

Як результат дослідження наведено рекомендації для розробників щодо використання популярних моделей з відкритим кодом у новому сервісі або інтеграції зі сторонніми програмами. Зазначено особливості моделей, їх сильні сторони, обмеження та певні застереження щодо довіри до отриманих результатів.

  1. Alessandro Berti, Humam Kourani, Hannes Hafke, Chiao-Yun Li, Daniel Schuster (2024) Evaluating Large Language Models in Process Mining: Capabilities, Benchmarks, and Evaluation Strategies https://doi.org/10.48550/arXiv.2403.06749.
  2. Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. "Glove: Global vectors for word representation.(2014) " Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014. https://doi.org/10.3115/v1/D14-1162
  3. Hojjat Salehinejad, Sharan Sankar, Joseph Barfett, Errol Colak, Shahrokh Valaee. Recent Advances in Recurrent Neural Networks (2017). https://doi.org/10.48550/arXiv.1801.01078
  4. Wang, Chenguang, Mu Li, and Alexander J. Smola. "Language models with transformers." arXiv preprint arXiv:1904.09408 (2019). https://doi.org/10.48550/arXiv.1904.09408
  5. OpenAI, URL: https://platform.openai.com/docs/introduction, (Accessed: 13 September 2024).
  6. Google AI, URL: https://ai.google.dev/gemini-api/docs/model-tuning, (Accessed: 13 September 2024).
  7. Anthropic, URL: https://docs.anthropic.com/claude/docs/intro-to-claude, (Accessed: 13 September 2024).
  8. T. Brown, B. Mann, N. Ryder "Language models are few-shot learners." (2020) arXiv preprint arXiv:2005.14165. https://doi.org/10.48550/arXiv.2005.14165.
  9. Artificial intelligence risk management framework (2023) https://doi.org/10.6028/NIST.AI.100-1.
  10. Laura Weidinger, John Mellor, Maribeth Rauh. Ethical and social risks of harm from Language Models (2021) https://doi.org/10.48550/arXiv.2112.04359