Разрабатывать и сопровождать Etl процессы и инженерию данных на базе Spark как основного движка обработки и загрузки данных.
Настраивать интеграции источников данных: подключение по Jdbc к базам и стендбаям, а также стриминговые интеграции через Kafka, работу с топиками и JSON.
Разрабатывать и поддерживать оркестрацию процессов в Airflow (Dag’и), используя Python в связке со Spark.
Работать с большими объемами данных (от десятков тысяч строк до сотен миллионов и миллиардов), решать задачи оптимизации обработки.
Разрабатывать и обслуживать слой данных на S3 и MinIO: работа с файловой системой, компрессией, охлаждением данных, обслуживанием и пересозданием таблиц, понимание партиционирования и форматов (в т.ч. JSON).
Участвовать в алгоритмизации и оптимизации хранения и обработки данных в объектном хранилище (S3/MinIO) с учетом особенностей, отличных от классических реляционных Субд вроде Greenplum.
Требования
Опыт работы в области Etl и Data разработки.
Уверенная работа с S3, опыт работы с MinIO.
Опыт работы с MinIO.
Уверенная работа со Spark.
Понимание табличного формата Iceberg.
Опыт интеграций с Kafka, умение работать с форматом JSON.
Навыки разработки Dag’ов в Airflow.
Владение Python на уровне для написания Etl процессов и служебного кода.
Опыт работы с Jdbc подключениями к Бд и источникам данных.
Опыт работы с ClickHouse (в том числе в окружении Arenadata ClickHouse).
Условия
Оформление по ТК РФ в ИТ-аккредитованную компанию
Годовой бонус до 15% от годового дохода
Выстроенная система работы с персоналом: индивидуальный план развития, выделенный бюджет на обучение у сторонних подрядчиков, регулярные 1:1 с руководителем
ДМС, включая стоматологию, страхование жизни и здоровья в поездках за рубеж. А еще можно застраховать родственников с корпоративной скидкой;