18.05.2026 в 10:13
Просмотры 1
+1 сегодня
Вакансия партнера
Data Scientist в области языковых моделей (Middle)
от 351 000 ₽ / месяц
Москва , Духовской переулок, 17с15
Специализация: Дата-сайентист
Формат работы: Удалённо
График работы: Сменный
Тип занятости: Полная занятость
Опыт: От 3 до 6 лет
Выплата: ежемесячно
Описание
Мы, команда компании «Инити», предлагаем специалистам по профилю «Data Scientist в области языковых моделей (Middle)» присоединиться к числу своих сотрудников и работать из любой точки мира.
Компания состоит в реестре российских аккредитованных IT-компаний, что в числе прочего подразумевает под собой отсрочку от призыва на военную службу, а также льготную ипотеку.
По результатам собеседования соискателю может быть предложена возможность трудоустройства за пределами РФ.
Обязанности
- Работа с данными: Сбор, предобработка и анализ текстовых данных для обучения моделей.
- Разработка пайплайнов: Создание надежных процессов подготовки данных (очистка, токенизация, создание пользовательских токенов).
- Дообучение Llm: Помощь в fine-tuning языковых моделей под специфические задачи компании с использованием современных подходов (Sft, LoRA, QLoRA).
- Агентские системы: Проектирование и разработка AI-агентов, работа с инструментами оркестрации (например, LangGraph или аналоги).
- Эксперименты: Проведение R&D циклов с различными архитектурами и конфигурациями для повышения качества ответов.
- Отчетность: Документирование хода экспериментов и визуализация результатов.
Требования
- Опыт и Python: Уверенное владение Python и стандартным стеком (Pandas, NumPy, Matplotlib).
- NLP-стек: Опыт работы с библиотеками экосистемы Hugging Face (Transformers, Peft, Datasets, Accelerate).
- Методы работы с текстом: Знание современных подходов (Embeddings, Vector Databases, Rag) и классических методов.
- Агенты: Базовое понимание концепций агентного взаимодействия (ReAct, планирование, использование инструментов/tools).
- MLOps & Инфраструктура: Базовые навыки работы с Docker, понимание процессов Ci/Cd для ML и опыт контейнеризации сервисов.
- Опыт с данными: Навык работы с крупными текстовыми датасетами и понимание принципов их фильтрации.
- Продвинутый Fine-tuning: Практический опыт применения LoRA/QLoRA для адаптации моделей (Llama, Mistral, Qwen и др.).
- Distributed Computing: Навыки работы в распределенных системах обработки данных или опыт обучения на нескольких Gpu.
- Инструменты развертывания: Знание решений для высоконагруженного инференса (vLLM, Nvidia Triton или Tgi).
- Мониторинг: Опыт работы с системами трекинга экспериментов (Weights & Biases, MLflow).
Условия
- Оформление по ТК
- Удаленный режим работы из любой точки мира
- График работы (09:00-18:00) (сб, вс - выходные)
- Возможно согласование рабочего графика (смещение рабочего дня, перенос рабочего дня на выходной)
- Дополнительная неделя отпуска
- Испытательный срок 1-3 мес
- Начальный уровень з/п определяется, исходя из результатов собеседования.