У дослідженні проаналізовано якісні характеристики повідомлень у месенджері Telegram, використаних як вихідні дані для подальшого аналізу текстового контенту. Здійснено ретельний огляд параметрів цих повідомлень, таких як їх формат, розмір, наявність шумів та швидкодія. Основна мета статті – моделювання оптимального підходу до збереження великого обсягу даних перед важливим етапом аналізу тексту. Під час дослідження детально проаналізовано літературні джерела із цієї тематики. Розглянуто основні переваги та недоліки наявних алгоритмів переднього опрацювання даних, а також проблеми, пов’язані з чистотою даних і їх впливом на потенційні результати дослідження. У межах програмних експериментів оцінено вплив попереднього опрацювання даних на розмір збережених даних для подальшого використання, а також на швидкість генерації вхідних даних. Серед запропонованих методів виділено метод збереження очищених токенів у форматі рядка та метод збереження кодів слів у форматі рядка разом зі словником слово- код, використання яких дасть змогу забезпечити ефективний розподіл завдань системи аналізу текстів протягом періоду доби.
