Data Engineer (S3, Spark)

Москва , Калужско-Рижская линия, метро Алексеевская

Алексеевская

Специализация: Дата-сайентист

Формат работы: Гибрид

График работы: Сменный

Тип занятости: Полная занятость

Опыт: От 1 года до 3 лет

Выплата: ежемесячно

Обязанности

Разрабатывать и сопровождать Etl процессы и инженерию данных на базе Spark как основного движка обработки и загрузки данных.

Настраивать интеграции источников данных: подключение по Jdbc к базам и стендбаям, а также стриминговые интеграции через Kafka, работу с топиками и JSON. Разрабатывать и поддерживать оркестрацию процессов в Airflow (Dag’и), используя Python в связке со Spark. Работать с большими объемами данных (от десятков тысяч строк до сотен миллионов и миллиардов), решать задачи оптимизации обработки. Разрабатывать и обслуживать слой данных на S3 и MinIO: работа с файловой системой, компрессией, охлаждением данных, обслуживанием и пересозданием таблиц, понимание партиционирования и форматов (в т.ч. JSON). Участвовать в алгоритмизации и оптимизации хранения и обработки данных в объектном хранилище (S3/MinIO) с учетом особенностей, отличных от классических реляционных Субд вроде Greenplum.

Требования

Опыт работы в области Etl и Data разработки.

Уверенная работа с S3, опыт работы с MinIO. Опыт работы с MinIO. Уверенная работа со Spark. Понимание табличного формата Iceberg. Опыт интеграций с Kafka, умение работать с форматом JSON. Навыки разработки Dag’ов в Airflow. Владение Python на уровне для написания Etl процессов и служебного кода. Опыт работы с Jdbc подключениями к Бд и источникам данных. Опыт работы с ClickHouse (в том числе в окружении Arenadata ClickHouse).

Условия

Оформление по ТК РФ в ИТ-аккредитованную компанию
Годовой бонус до 15% от годового дохода
Выстроенная система работы с персоналом: индивидуальный план развития, выделенный бюджет на обучение у сторонних подрядчиков, регулярные 1:1 с руководителем
ДМС, включая стоматологию, страхование жизни и здоровья в поездках за рубеж. А еще можно застраховать родственников с корпоративной скидкой;
Программа корпоративных скидок Best benefits
Дополнительный оплачиваемый отпуск

Навыки

Greenplum

Clickhouse

MinIO

Spark

Apache Airflow

Apache Kafka

JSON

Iceberg

Войдите, чтобы показать контакты

Вакансии по похожим условиям

Полная занятость Опыт от 1 года до 3 лет Гибридный формат Сменный график

Тера Интегро

Все вакансии компании →