РОЗУМІННЯ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ: МАЙБУТНЄ ШТУЧНОГО ІНТЕЛЕКТУ

https://doi.org/10.23939/cds2024.02.051
Надіслано: Травень 20, 2024
Переглянуто: Червень 05, 2024
Прийнято: Серпень 08, 2024
1
Національний університет «Львівська політехніка», кафедра систем автоматизованого проектування
2
Національний університет Львівська політехніка
3
Національний університет Львівська політехніка

У статті проведено дослідження новітнього напрямку у штучному інтелекті - Великі Мовні Моделі, які відкривають нову еру в обробці природної мови, надаючи можливість створення більш гнучких і адаптивних систем. З їх допомогою досягається високий рівень розуміння контексту, що збагачує досвід користувачів та розширює сфери застосування штучного інтелекту. Великі мовні моделі мають величезний потенціал для переосмислення взаємодії людини з технологіями та зміни уявлення про машинне навчання. Проведено огляд історичного розвитку великих мовних моделей, зазначено компанії-лідери, що займаються науковими дослідженнями та розробкою ефективних систем. Надано інформацію щодо внутрішнього устрою та представлення знань у моделях. Висвітлено основні принципи навчання: збір даних та їх попередня обробка, вибір доцільної нейромережної архітектури, що використовується у великих мовних моделях. Зазначено, що найбільшого прогресу досягнуто з використанням нейронної мережі Трансформер, що базується на механізмі уваги. Висвітлено кроки, що значно сприяють навчанню, пост-навчанню, оптимізації швидкості навчання. Для оцінки ефективності та якості мовних моделей використовуються різні метрики, які залежать від вирішуваного завдання. Однак, незважаючи на свої переваги, великі мовні моделі на сьогодні не позбавлені проблем. Можливість генерації недостовірної інформації, вигаданих фактів та неетичних реплік представляє виклик для дослідників та розробників. Важливо продовжувати роботу над підвищенням відповідальності моделей, розробляти ефективні методи фільтрації контенту та вдосконалювати механізми навчання. Розуміння цих проблем та пошук їх рішень є ключовими кроками на шляху до створення більш ефективних та надійних великих мовних моделей. Відкритість, колективна участь та діалог між суспільством, науковою спільнотою та розробниками стають невід'ємною частиною забезпечення сталого розвитку цієї технології.

[1]   Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu. A Survey on Evaluation of Large Language Models [Online] URL: https://dl.acm.org/doi/pdf/10.1145/3641289 (Accessed: 02/05/2024).

[2]   Large Language Models powered by world-class Google AI [Online] URL: https://cloud.google.com/ai/llms

[3]   OpenAI Large Language Models  [Online] URL: https://platform.openai.com/docs/models/ (Accessed: 02/05/2024).

[4]   AI history: the Dartmouth Conference. [Online] URL: https://www.klondike.ai/en/ai-history-the-dartmouth-conference/, (Accessed: 02/05/2024).

[5]   A Very Gentle Introduction to Large Language Models without the Hype [Online] URL: https://mark-riedl.medium.com/a-very-gentle-introduction-to-large-langua..., (Accessed: 02/05/2024).

[6]   Enkelejda Kasneci, Kathrin Sessler, Stefan Küchemann. ChatGPT for good? On opportunities and challenges of large language models for education, Learning and Individual Differences, Volume 103, 2023, 102274, ISSN 1041-6080, https://doi.org/10.1016/j.lindif.2023.102274.

[7]   Jiaqi Wang, Zhengliang Liu, Lin Zhao, Review of large vision models and visual prompt engineering, Meta-Radiology, Volume 1, Issue 3, 2023, 100047, ISSN 2950-1628, https://doi.org/10.1016/j.metrad.2023.100047.

[8]   Usman Naseem, Imran Razzak, Shah Khalid Khan, Mukesh Prasad. A Comprehensive Survey on Word Representation Models: From Classical to State-of-the-Art Word Representation Language Models. ACM Transactions on Asian and Low-Resource Language Information ProcessingVolume 20Issue 5Article No.:74 pp.1–35 https://doi.org/10.1145/3434237

[9]   Jakob Uszkoreit. Transformer: A Novel Neural Network Architecture for Language Understanding. [Online] URL: https://blog.research.google/2017/08/transformer-novel-neural-network.html (Accessed: 02/05/2024).

[10]    Tamkin, A., Brundage, M., Clark, J., & Ganguli, D. (2021). Understanding the capabilities, limitations, and societal impact of large language models. arXiv preprint arXiv:2102.02503. https://doi.org/10.48550/arXiv.2102.02503.