Данные и аналитика

Наш стек технологий
Python
Spark
Scala
SQL
Hadoop
Informatica
Teradata
БОЛЬШЕ О ТЕХ СТЕКЕ

Мы создаем Data Driven ритейл

Разрабатываем корпоративное хранилище данных на 700 терабайт, создаем алгоритмы продвинутой аналитики, обучаем модели и знаем предпочтения 57 миллионов клиентов.

А ещё...

посоветуем вино под фильм на основе алгоритма Context_Awear 
Мы разрабатываем

Data
Platform

Проектируем архитектуру корпоративного хранилища данных. Собираем данные, поддерживаем аналитические и прогнозирующие функции.

Promo Optimization

Уверенно отвечаем на вопрос "Какой товар поставить на полку?" и знаем, как распределить товарные поставки между 25 000 магазинов сети.

Promo
Forecast

Оперируем сложными алгоритмами очистки данных и продвинутой аналитики, чтобы предложить лучшую цену и акции покупателям.

Recommender
System

Подскажем, какой товар стоит купить именно вам, чем вас обрадовать и как предугадать, что вы захотите зайти к нам снова уже завтра.

Мы учим нейросети для вас

В нашем владении DWH на базе TeraData, Oracle Exadata, Hadoop, Informatica. Разрабатываем инструменты самостоятельно. Делаем не только для себя, но и выводим в opensource.
Артем Селезнев
лидер направления
CVM Data Science
Через Customer Satisfaction к изменению представления о "Магните". У нас больше 15 000 звезд в GitHub, 2 opensource проекта и более 600 выступлений на конференциях.
Cамая большая команда - DWH Development. Мы разрабатываем решения на SQL и Python. Здесь раздолье для разработчиков - одна из самых больших инсталляций TeraData.
Мы умеем сегментировать клиентов, предсказывать эффект рекламы, проводить Uplift моделирование.
А по пятницам проводим Spark Course для всех желающих.
Не только Data Science. Провели командный чемпионат по настольному теннису.
Регулярно обновляем командный бенчмарк в спорт-зале: больше 17 подтягиваний и dragon flag впридачу.

Команды

В нашем распоряжении 700 терабайт данных, продвинутые инструменты и крутые проекты.
Архитектура данных
Data Platform
Мы проектируем архитектуру данных, работаем с Data Lake. В работе с бизнесом придерживаемся модели Data-партнерства. Партнеры по данным помогают провести системный анализ. Модель партнерства с бизнесом помогает перевести запросы на язык, понятный для разработчика, выстраивают кросс-функциональные команды.
Technologies
3NF
ETL/ELT
MPP
Сейчас "Магнит" переживает взрывной рост в области аналитики данных. В команду пришло огромное количество людей с прогрессивным опытом и экспертизой. Вместе мы видим, что надо менять и выстраивать. У нас есть современные платформы и инструменты. При этом мы не просто решаем задачи бизнеса, но и наводим порядок. Наводим необходимый Data-housekeeping.
Дмитрий
Тимлид команды
Data Architecture
Data Governance
Data Platform
Мы создаем методологию платформы данных. Так мы повышаем качество данных и ускоряем разработку, формируем теги и каталоги данных, определяем их место хранения, делаем данные понятными бизнесу.
Умеем сделать данные качественными и понятными, создаем бизнес-глоссарий.  Именно в ритейле открываются по-настоящему огромные возможности настроить культуру данных. Для старта достаточно SQL, остальному научим.
Александр
методолог данных
Разработка DWH
Data Platform
Cобираем информацию из разных источников в одном месте, анализируем её с помощью BI-инструментов и представляем выводы в виде понятных таблиц и дашбордов.

Languages
SQL
Python
Development
GoldenGate
Informatica PC / DEI
Разворачиваем облачные мощности в AWS и Azure. Внедряем DataOps подход, CI/CD. Корпоративное хранилище данных поддерживает выделенная команда в режиме 24/7. Говорят, что если что-то произойдет, поступает звонок и из трубки можно услышать приятный женский голос "Наташа, мы все уронили!". Признаюсь, мне пока не довелось его услышать.
Павел
Лидер направления
Data Platform
Инфраструктура данных
Data Platform
Отдельное направление в команде Data Management - DataOps.
Команда поддерживает функции данных и аналитики со стороны железа и виртуальных машин, выводит в Cloud. Мы уже используем облачные технологии Azure и запускаем решение Amazon - AWS.
Platforms
Azure Cloud
Amazon Web Services
CI\CD
Gitlab CI\CD
GoldenGate
Поддержку хранилища осуществляется в режиме 24/7. Такого нет ни у кого на рынке. Это внутренняя выделенная команда. Бизнес готов выделять ресурсы и приоритет для хранения, очистки и обработки данных.
Павел
Лидер направления Data Platform
Разработка аналитических инструментов
Data Engineering
Мы разрабатываем инструменты аналитики данных. Мы обучаем модели и настраиваем алгоритмы, которые используем в прогнозировании промо-механик, управлении доступностью товара на полке, оптимизации промо и клиентской аналитики.
Languages
Python
Spark
Platforms
Docker
Apache Kafka
У нас сложный бизнес, поэтому нам не достаточно одной модели. Мы не только обучаем много моделей. В авангарде стоит бустинг, глубокие нейронные сети, кластер очистки данных, feature engineering, Python и Spark, Scala, Kafka для чувствительных данных. Ну и Docker нам в помощь :)
Алексей
Лидер направления Data Analytics
Прогнозирование промо и спроса
Data Science
Прогнозная машина - это работа с сырыми данными Data Lake, очистка данных на основе более 150 признаков для разных моделей, бустинг, нейросети, линейные модели, ARIMA/ SARIMA.
Languages
Apache Spark
Scala, Python
Platforms
Hive, ML Flow
Docker, Kafka
Что такое Promo Forecast в «Магнит»? Широкая география сети и большой цикл прогнозирования: 70-42 дня. SLA на расчет не более 20 минут. Сложность и челлендж — более 40 промо механик.
Андрей
Лидер направления
Promo Forecast
Клиентская аналитика
Data Science
Мы – это не «сухие» алгоритмы рекомендаций. Именно CVM позволяет укрепить имидж бренда и стимулирует повторные покупки.
А как это сделать ещё лучше?Конечно погрузившись в данные с помощью PySpark и строить модели, двигаясь от простого sklearn к интересным моделям возвращения клиентов LSTM/RNN на TensorFlow.
Languages
ApacheSpark
Scala, Python
Platforms
TensorFlow
ML Flow
Используя персонализацию, наша команда превращает случайного покупателя в постоянного. В этом нам помогают алгоритмы поиска закономерностей, модели машинного обучения и нейронные сети. От нас не спрячешься, даже если вы один из 57 миллионов наших лояльных клиентов :)
Как мы работаем? Лучшие практики из LeanDS подходят под общую коммуникацию с внутренними заказчиками. Постановка целей по OKR и SMAST, к задачам подходим через SCRUM фреймворк.  Команда ценит репрезентативность моделей, поэтому финальные решения и ключевые этапа проектов всегда включают в себя Test-Driven разработку с трекингом через DVC.
Артем
Лидер направления
CVM
Промооптимизация
Data Science
Каждый эффект оцениваем с помощью ML-алгоритмов: временными рядами, Elastic Net, word2vec. Помимо этого мы разрабатываем автоматическую оптимизацию ассортимента и скидок для будущих промо акций.  Для этого мы строим модель прогноза, используя передовые state-of-the-art алгоритмы LSTM, Prophet. В конце подтверждаем полученный эффект проведением тщательно спланированного A/B-теста.
Languages
Pyspark
Pycharm
Platforms
Air Flow
ML Flow
В современном продуктовом ритейле промо продажи достигают 60% выручки компании. Мы анализируем эффективность промо акций с учётом возникающих дополнительных эффектов, таких как каннибализация, комплементарность, закупка впрок и многих других.
Каждый день мы работаем с 40 TB данных, используя множество передовых технологий и систем: Pyspark, Pycharm, Teradata, GitLab, Docker, Air Flow, ML Flow, облачные сервисы.
Андрей
Лидер направления
аналитики коммерческого блока

Технологический стек

Data management
Techniques
Languages & Tools
Platforms & Infrastructure
стек технологий DATA Platform
ADOPT
1
3NF
2
ETL/ELT
3
MPP
4
Data Warehouse
5
Data Lake
6
Data Vault
7
DataOps
8
Data Governance
9
BusinessGlossary
10
Data lineage
11
Data Catalog
12
Azure Cloud
14
Teradata
15
Oracle Exadata
16
MS SQL
17
PostgreSQL
18
Hadoop
19
S3
20
Redshift
21
Python
22
SQL
23
Informatica PC / DEI
24
GoldenGate
25
SAP PowerDesigner
26
Gitlab CI\CD
TRIAL
13
Amazon Web Services
Frameworks & Tools
Platforms & Infrastructure
Data management
стек технологий Data SciencE
ADOPT
1
Python
2
Spark
3
Scala
4
Plotly
5
Sklearn
6
Pandas
7
Numpy
8
Keras
9
TensorFlow
10
Theano
11
PyCaret
12
DVC
13
Kedro
14
Amundsen
15
Datahub
16
Great
Expectations
TRIAL
27
Apache Kafka
28
Apache Hadoop
HOLD
37
IBM DB2 Universal Database

Вакансии

125 вакансий в Аналитике Данных
Главный системный аналитик
Технологии:
SQL, ORACLE, UML или Archimate, Confluence, Jira
Разработка информационных систем логистики и склада
Технологии:
SQL, ORACLE, UML или Archimate, Confluence, Jira
Удаленная работа
Офис, Москва
Офис, Краснодар
Офис, Иннополис
Реферальная программа
Senior Data Scientist
Технологии:
Python, Spark, Kafka
Данные и аналитика, Big Data
Технологии:
Python, Spark, Kafka
Удаленная работа
Офис, Краснодар
Офис, Москва
Реферальная программа
Data engineer
Технологии:
SQL, Python, Teradata, JavaScript, CSS
Данные и аналитика, Big Data
Технологии:
SQL, Python, Teradata, JavaScript, CSS
Удаленная работа
Офис, Москва
Офис, Краснодар
Реферальная программа
Системный аналитик Keycloak
Технологии:
keycloak
Разработка информационных систем продаж и коммерции
Технологии:
keycloak
Удаленная работа
Офис, Москва
Офис, Краснодар
Офис, Иннополис
Реферальная программа
Системный аналитик
Технологии:
SQL, Teradata, Informatica
Данные и аналитика, Big Data
Технологии:
SQL, Teradata, Informatica
Удаленная работа
Офис, Москва
Реферальная программа
Ведущий системный аналитик
Технологии:
SQL, ORACLE, UML, Archimate
Разработка информационных систем логистики и склада
Технологии:
SQL, ORACLE, UML, Archimate
Удаленная работа
Офис, Москва
Офис, Краснодар
Офис, Иннополис
Реферальная программа
SQL аналитик
Технологии:
SQL
Данные и аналитика, Big Data
Технологии:
SQL
Удаленная работа
Офис, Краснодар
Офис, Москва
Реферальная программа
Главный бизнес-аналитик
Технологии:
1С / ERP, SQL, VBA
Разработка информационных систем продаж и коммерции
Технологии:
1С / ERP, SQL, VBA
Удаленная работа
Офис, Краснодар
Реферальная программа
Руководитель направления по архитектуре данных
Технологии:
SQL, Teradata, Hadoop, ETL
Данные и аналитика, Big Data
Технологии:
SQL, Teradata, Hadoop, ETL
Удаленная работа
Офис, Москва
Реферальная программа
Системный аналитик в команду Mobile
Технологии:
Цифровые продукты
Технологии:
Удаленная работа
Офис, Москва
Реферальная программа
Ведущий системный аналитик
Технологии:
SQL, ARIS, BPWIN, IDEF, Python, Confluence, Jira
проект F&R
Технологии:
SQL, ARIS, BPWIN, IDEF, Python, Confluence, Jira
Удаленная работа
Офис, Краснодар
Старший аналитик данных
Технологии:
SQL, Python, ClikSense, Confluence, Jira
проект F&R
Технологии:
SQL, Python, ClikSense, Confluence, Jira
Удаленная работа
Офис, Москва
Офис, Краснодар
Реферальная программа
Senior DWH developer
Технологии:
Тeradata, Hadoop, SAP, Ni-Fi, Kafka, GoldenGate, Python, Linux, MS SQL, PostgreSQL, Greenplum
Данные и аналитика, Big Data
Технологии:
Тeradata, Hadoop, SAP, Ni-Fi, Kafka, GoldenGate, Python, Linux, MS SQL, PostgreSQL, Greenplum
Удаленная работа
Офис, Москва
Бизнес-аналитик
Технологии:
MS SQL, MS Excel
Данные и аналитика, Big Data
Технологии:
MS SQL, MS Excel
Удаленная работа
Офис, Краснодар
Реферальная программа