Високопродуктивне й ефективне планування замовлень – поширена комбінаторна оптимізаційна задача, що виникає в різноманітних контекстах. Побудова моделі, здатної формувати збалансовані за якістю та обчислювальними витратами розклади, – істотний виклик через масштабний простір допустимих дій. У роботі запропоновано високопродуктивне середовище та модель навчання з підкріпленням для розподілу замовлень на ресурси із маскуванням недопустимих дій. Розроблене рішення на основі навчання з підкріпленням долає обмеження традиційних евристичних та точних підходів стосовно швидкості розрахунків та ефективності. Дослідження передбачало проєктування сумісного із інтерфейсом Gymnasium середовища, аналіз продуктивності середовища, розроблення оптимізованих процедур оновлення стану та формування ознак, оцінювання якості навчання моделей PPO та MaskablePPO. Для середовища реалізовано інкрементне оновлення ознак стану та маски дій із широким застосування векторизації NumPy, що дало змогу істотно зменшити обчислювальні витрати на підтримання актуального стану та підвищило сумісність із політиками глибинного навчання. Маскування недопустимих дій замінило політику штрафів, обмежуючи множину вибору моделі лише коректними, чим підвищило точність моделі, зосередившись на виборі оптимальніших та коректніших дій. Сформовано набори даних розміром до 500 замовлень, на яких здійснено навчання PPO та MaskablePPO моделей, наданих пакетом Stable-Baselines3. Виконано 100 000 ітерацій для навчання кожної моделі. Моніторинг процесу навчання забезпечено за допомогою засобів TensorBoard. Час навчання версії з маскуванням становив 1,49 хв, модель без маски витратила на навчання 1,2 хв. Для Masked PPO середній штраф на кроці становив 2,41, тоді як для PPO – 325 000. Результати експериментів свідчать про те, що звичайна PPO часто вибирала недопустимі дії, накопичуючи штрафи за них, тоді як MaskedPPO накопичила штраф лише за довжину складеного розкладу. Завдяки цьому на тестовому наборі даних MaskedPPO здійснила розподіл замовлень за 0,18 с, отримавши розклад тривалістю 4 590 хв, а звичайна PPO за 5,4 с – розклад тривалістю 5 127 хв, здійснивши 96 % помилкових спроб дій. Встановлено, що маскування недопустимих дій покращило якість моделі, забезпечивши вищу збіжність попри довший час навчання. Продемонстровано значний потенціал підходу навчання із підкріпленням у плануванні та розподілі замовлень і оптимізаційних комбінаторних задач загалом. Запропонована модель Masked PPO забезпечила розподіл замовлень швидше за традиційний точний метод CP-SAT, зберігши якість отриманого розкладу, вищу за евристику SPT на задачах із 50–500 замовленнями. Закладено основу для подальших досліджень, розроблення складніших моделей на основі Set Transformers, Graph Neural Networks, Pointer Networks, які забезпечують ефективне узагальнення, можливість застосування моделі на задачах із більшою розмірністю вхідних векторів, ніж під час навчання.
[1] K. Li, T. Zhang, R. Wang, Y. Wang, Y. Han and L. Wang (Dec. 2022). Deep Reinforcement Learning for Combinatorial Optimization: Covering Salesman Problems, in IEEE Transactions on Cybernetics, 52(12), 13142–13155. https://doi.org/ 10.1109/TCYB.2021.3103811
[2] Kim, H., Kim, Y.-J., & Kim, W.-T. (2024). Deep reinforcement learning-based adaptive scheduling for wireless time-sensitive networking. Sensors, 24(16), 52–81. https://doi.org/ 10.3390/s24165281
[3] Cheng, Y., Huang, L., & Wang, X. (2022). Authentic Boundary Proximal Policy Optimization. IEEE Transactions on Cybernetics, 52(9), 9428–9438. https://doi.org/10.1109/ TCYB. 2021.3051456
[4] Zhang, T., Banitalebi-Dehkordi, A., & Zhang, Y. (2022, August). Deep reinforcement learning for exact combinatorial optimization: Learning to branch. In 2022 26th International Conference on Pattern Recognition (ICPR) (pp. 3105–3111). IEEE. https://doi.org/10.1109/ICPR56361. 2022.9956256
[5] Zhang, Y., Zhang, Z., & Zhang, L. (2020). Implementing action mask in proximal policy optimization (PPO) algorithm. Procedia Computer Science, 176, 2749–2758. https://doi.org/ 10.1016/j.procs.2020.09.122
[6] Wang, Z., Li, X., Sun, L., Zhang, H., Liu, H., & Wang, J. (2024). Learning State-Specific Action Masks for Reinfor- cement Learning. Algorithms, 17(2), 60. https:// doi.org/ 10.3390/ a17020060
[7] Jung, M., Lee, J., & Kim, J. (2024). A lightweight CNN- transformer model for learning traveling salesman problems. Applied Intelligence, 54, 7982–7993. https://doi.org/10.1007/ s10489-024-05603-x
[8] Waubert de Puiseau, C., Wolz, F., Montag, M., Peters, J., Tercan, H., & Meisen, T. (2025). Applying Decision Transformers to Enhance Neural Local Search on the Job Shop Scheduling Problem. AI, 6(3), 48. https://doi.org/ 10.3390/ai6030048
[9] Krishnan, S., Boroujerdian, B., Fu, W., Chen, Y., Sharma, P., & Bindel, D. (2021). Air Learning: A deep reinforcement learning gym for autonomous aerial robot visual navigation. Machine Learning, 110(9), 2501–2540. https://doi.org/ 10.1007/ s10994-021-06006-6
[10] Han, B., & Yang, J.-J. (2021). A deep reinforcement learning based solution for flexible job shop scheduling problem. International Journal of Simulation Modelling, 20(2), 375– 386. https://doi.org/10.2507/IJSIMM20-2-CO7
[11] Zhang, X., Wang, Y., & Wang, J. (2022). Entropy regularized reinforcement learning with policy gradient. Information Sciences, 607, 1063–1079. https://doi.org/10.1016/j.ins. 2022.06.057
[12] Eschmann, J. (2021). Reward function design in reinforcement learning. In Reinforcement Learning Algo- rithms: Analysis and Applications (pp. 25–33). Springer. https://doi.org/10.1007/ 978-3-030-41188-6_3
[13] Hou, Y., Liang, X., Zhang, J., Yang, Q., Yang, A., & Wang, N. (2023). Exploring the use of invalid action masking in reinforcement learning: A comparative study of on-policy and off-policy algorithms in real-time strategy games. Applied Sciences, 13(14), 82–83. https://doi.org/ 10.3390/ app13148283
[14] Sahu, A., Venkatraman, V., & Macwan, R. (2023). Reinforcement learning environment for cyber-resilient power distribution system. IEEE Access, 11, 127216–127228. https://doi.org/10.1109/ACCESS.2023.3282182