Описание
Запрошуємо приєднатися до нашої команди Lead Data ScientistРоль:Побудувати процеси аналітики так, щоб дані були стабільні, відтворювані й контрольовані; запустити навчання аналітиків та забезпечити delivery рішень ML від постановки задачі до продакшну.Обов’язки:Дата інжиніринг & пайплайни: налаштування Dagster + dbt; тести даних, алерти, контроль витоків (leakage).Аналітичні вітрини: проєктування узгоджених marts (клієнт/чек/товар/магазин/промо/канал) з правильним grain та історичністю.ML для табличних даних: побудова та валідація моделей (LightGBM/XGBoost/CatBoost), регуляризація, CV, робота з дисбалансом класів, інтерпретація (SHAP).Оцінка якості моделей: ROC-AUC/PR-AUC, F1, calibration та інші.; підготовка метрик та звітів для бізнесу.Повний ML/DS цикл: постановка задач - підготовка датасетів - моделювання - інтерпретація - продакшн (batch/API), Docker.Навчання/менторинг: системне апскілл-навчання аналітиків (Excel-рівень і вище), регулярні заняття та рев’ю задач.Стандарти команди: Git, code review, шаблони ноутбуків/звітів, документація; впровадження “Data Platform Playbook”.Data mining: пошук патернів і гіпотез на реальних даних, спільна робота з бізнесом.Додатково - Архітектура та платформа даних: участь у розгортанні MinIO + Apache Iceberg + Catalog + Trino; забезпечення якості та керованості даних.Вимоги (технічні):1. Python + SQL (strong): pandas/numpy, scikit-learn; CTE, window functions, оптимізація запитів.2. Математична база (практична):ймовірність і статистика: розподіли, маточікування/дисперсія, довірчі інтервали, p-value;перевірка гіпотез, A/B-тести, статистична потужність;лінійна алгебра: матриці/вектори, базове розуміння градієнтів.3. ML для табличних даних: LightGBM/XGBoost/CatBoost, регуляризація, bias-variance, cross-validation, контроль leakage.4. Оцінка моделей: ROC-AUC/PR-AUC, F1, calibration; робота з дисбалансом; інтерпретація (SHAP).5. End-to-end DS: від постановки задачі до продакшну (batch/API), Docker.6.Навчання/менторинг: робота з аналітиками рівня Excel; системні заняття + рев’ю.7.Апскілл-програма: вміння проектувати план на 3–6 міс (практика/домашки/skills matrix).8.Командні стандарти: Git, code review, шаблони, документація.Буде плюсом: досвід з Lakehouse, Trino performance tuning, продакшн-ML рішень у Retail/FMCG, досвід CI/CD для DS.Задачі на пілот (перші 6 місяців):Долучитися до проєкту розгортання “фабрики даних” (MinIO + Iceberg + Catalog + Trino) — забезпечити стабільність, відтворюваність, контроль.Побудувати базові вітрини даних під клієнтську аналітику (клієнт/чек/товар/магазин/промо/канал) з узгодженим grain та історичністю.Налаштувати автоматичні пайплайни (Dagster + dbt), тести даних і алерти.Вибудувати процеси обробки та аналізу даних, data mining.Внутрішні навчання (обов’язково):5. Провести SQL Bootcamp для пілотної групи (3–4 людини): SELECT/JOIN/GROUP BY, віконні функції, логіка grain, правила “як не зламати метрики”.6. Створити “Data Platform Playbook”: як підключатися, де які таблиці, що таке “джерело правди”, як просити нові поля/таблиці (процес заявок).7. Запустити office hours 2 рази/тиждень: розбір реальних задач аналітиків на реальних даних.Компанія пропонує:дистанційний або гібридний формат роботи;працевлаштування на умовах гіг-контракту або в штат (є можливість бронювання);оплачувану щорічну відпустку 24 календарних дня, оплачуваний лікарняний;регулярну виплату заробітної плати без затримок та в обумовлених обсягах, регулярний перегляд заробітної плати;можливість професійного та кар'єрного росту;курси підвищення кваліфікації.Контактна особа: Катерина, тел.0984567857 (t.me/KaterynaB_HR)