Сделать из кучки скриптов нормальный локальный ETL

Мой Калькулятор стоимости жизни использует данные с Numbeo. Сейчас процесс выгрузки данных крайне примитивный.

Всё это я запускаю локально (это намеренное решение, чтоб не городить CI/CD инфраструктуру). Деплоится всё отдельным ansible-плейбуком, чтобы разложить JSON в S3-подобное хранилище и обновить версию/URL в джаваскрипте вместе с релизом самого JS. Это тоже осознанное решение, потому что так деплоится мой сайт, а калькулятор — его часть.

Меня всё устраивает. Но дело в том, что на куче скриптов и текстовых файлов без SQL сложно делать нормальные агрегации и обрабатывать данные серьёзнее, чем просто выкинуть пустые поля или лишние символы.

Я вижу следующую итерацию этой системы как простейший ETL-пайплайн, который я также буду запускать локально.

Всё это несложно запрограммировать, но мне интересно, есть ли какие-то инструменты для таких задач. Что-то типа конфигурируемого комбайна, который уже умеет парсить, складывать данные в БД, обрабатывать и писать JSON, а ты ему только реализацию каждого шага подсовывай.

Поделитесь опытом в комментариях.

Привет, я Олег Громов 🤘

Я разработчик и автор, иногда что-то запускаю. Тут я много умничаю пишу о разработке и индустрии, сайд-проектах и стартапах, жизни и прочих штуках.

Прямо сейчас я занят тем, что собираю все старые блоги на этом сайте.

А ещё у меня есть телеграм-канал. Рад, что вы заглянули!