Данные и аналитика

Наш стек технологий
Python
Spark
Scala
SQL
Hadoop
Informatica
Teradata
БОЛЬШЕ О ТЕХ СТЕКЕ

Мы создаем Data Driven ритейл

Разрабатываем корпоративное хранилище данных на 500 терабайт, создаем алгоритмы продвинутой аналитики, обучаем модели и знаем предпочтения 57 миллионов клиентов.

А ещё...

посоветуем вино под фильм на основе алгоритма Context_Awear 
Мы разрабатываем

Data
Platform

Проектируем архитектуру корпоративного хранилища данных. Собираем данные, поддерживаем аналитические и прогнозирующие функции.

Promo Optimization

Каждый день, используя возможности ML, отвечаем на вопрос "Сколько товара будет продано по акции?" в каждом из 25000 магазинов сети.

Promo
Forecast

Оперируем сложными алгоритмами очистки данных и продвинутой аналитики, чтобы предложить лучшую цену и акции покупателям.

Recommender
System

Подскажем, какой товар стоит купить именно вам, чем вас обрадовать и как предугадать, что вы захотите зайти к нам снова уже завтра.

Мы обучаем нейросети для вас

В нашем владении DWH на базе TeraData, Oracle Exadata, Hadoop, Informatica. Разрабатываем собственные продукты. Делаем не только для себя, но и выводим их в opensource.
Артем Селезнев
лидер направления
CVM Data Science
Через Customer Satisfaction к изменению представления о "Магните". Наш deployml_course собрал 78 звезд на Github, выкладываем проекты в opensource и верим в формулу Open code = better Science.
Cамая большая команда - DWH Development. Мы разрабатываем решения на SQL и Python. Здесь раздолье для разработчиков - одна из самых больших инсталляций TeraData.
Мы умеем сегментировать клиентов, предсказывать эффект рекламы, проводить Uplift моделирование.
А по пятницам проводим Spark Course для всех желающих.
Не только Data Science. Провели внутренний чемпионат по настольному теннису.
Регулярно обновляем командный бенчмарк в спорт-зале: больше 17 подтягиваний и dragon flag впридачу.

Команды

В нашем распоряжении 500 терабайт данных, продвинутые инструменты и крутые проекты.
Архитектура данных
Data Platform
Мы проектируем архитектуру данных для корпоративной платформы: DWH, ODS, Data Marts, Data Lake. В работе с бизнесом придерживаемся модели Data-партнерства. Партнеры по данным помогают провести системный анализ. Модель партнерства с бизнесом помогает перевести запросы на язык, понятный для разработчика, выстраивают кросс-функциональные команды.
Technologies
3NF
ETL/ELT
MPP
Сейчас "Магнит" переживает взрывной рост в области аналитики данных. В команду пришло огромное количество людей с прогрессивным опытом и экспертизой. Вместе мы видим, что надо менять и выстраивать. У нас есть современные платформы и инструменты. При этом мы не просто решаем задачи бизнеса, но и наводим порядок. Наводим необходимый Data-housekeeping.
Дмитрий
Тимлид команды
Data Architecture
Data Governance
Data Platform
Наша задача сделать данные качественными и понятными бизнесу. Мы формируем глоссарии и каталоги данных, определяем их место хранения и путь преобразования. Так мы повышаем качество данных и скорость разработки.
Именно в ритейле открываются по-настоящему огромные возможности настроить культуру данных. Для старта достаточно SQL, остальному научим.
Дмитрий
Тимлид команды
Data Governance
Разработка DWH
Data Platform
Интегрируем сотни источников в единую платформу данных, анализируем её с помощью BI-инструментов и представляем выводы в виде понятных таблиц и дашбордов.
В нашем арсенале как лучшие на рынке enterprise-решения, так и opensource и даже собственные продукты. Мы разворачиваем облачные мощности в Amazon Web Services (AWS) и Azure. Внедряем DataOps подход, CI/CD.
Languages
SQL
Python
Development
Teradata, Oracle, Hadoop
Informatica PC / DEI
Говорят, что если что-то произойдет, поступает звонок и из трубки можно услышать приятный женский голос "Наташа, мы все уронили!"
Признаюсь, мне пока не довелось его услышать.
Александр
Лидер направления
Разработки DWH
Инфраструктура данных
Data Platform
Отдельное направление в команде Data Management - DataOps.
Команда поддерживает функции данных и аналитики со стороны железа и виртуальных машин, выводит в Cloud. Мы уже используем облачные технологии Azure и запускаем решение Amazon - AWS.
Platforms
Azure Cloud
Amazon Web Services
CI\CD
Gitlab CI\CD
GoldenGate
Корпоративное хранилище данных поддерживает выделенная команда в режиме 24/7. Такого нет ни у кого на рынке. Это внутренняя выделенная команда. Бизнес готов выделять ресурсы и приоритет для хранения, очистки и обработки данных.
Павел
Лидер команды
Data Management
Разработка аналитических инструментов
Data Engineering
Мы разрабатываем инструменты аналитики данных. Мы обучаем модели и настраиваем алгоритмы, которые используем в прогнозировании промо-механик, управлении доступностью товара на полке, оптимизации промо и клиентской аналитики.
Languages
Python
Spark
Platforms
Docker
Apache Kafka
У нас сложный бизнес, поэтому нам не достаточно одной модели. Мы не только обучаем много моделей. В авангарде стоит бустинг, глубокие нейронные сети, кластер очистки данных, feature engineering, Python и Spark, Scala, Kafka для чувствительных данных. Ну и Docker нам в помощь :)
Алексей
Лидер команды
Data Analytics
Прогнозирование промо спроса
Data Science
Прогнозирование промо спроса – это не просто большой инструмент собственной разработки. Каждый день с заданным SLA прогнозная машина перерабатывает более сотни терабайт различных данных. Это целая система, построенная на базе стека Hadoop/Spark, оркестрируемая Airflow.

Наш боевой pipeline включает в себя широкий спектр алгоритмов от простейших мультипликативной и линейной моделей до решений на базе бустинга и нейронных сетей.

Каждая из моделей направлена на учет различных особенностей промо спроса компании от промо механик и формата магазинов до влияния вымываний товара и различной рекламы на его будущий спрос.
Languages
Python, SQL
Scala
Platforms
Hadoop, Spark, Airflow,
Hive, DGX, Docker
Наш продукт – это коллаборация высоких технологий и глубокого погружения в работу всего бизнеса. Так мы определяем как повысить точность прогноза и повысить эффективность решений.
Наша команда это 20+ специалистов: Data Scientists, Data Engineers, Data Analysts.

Рабочий процесс координируем фрейморком LeanDS с катомизацией под особенности получения ценностей в нашем продукте.
Андрей
Тимлид команды
Promo Forecast
Клиентская аналитика
Data Science
Мы – это не «сухие» алгоритмы рекомендаций. Именно CVM позволяет укрепить имидж бренда и стимулирует повторные покупки.
А как это сделать ещё лучше?Конечно погрузившись в данные с помощью PySpark и строить модели, двигаясь от простого sklearn к интересным моделям возвращения клиентов LSTM/RNN на TensorFlow.
Languages
ApacheSpark
Scala, Python
Platforms
TensorFlow
ML Flow
Используя персонализацию, наша команда превращает случайного покупателя в постоянного. В этом нам помогают алгоритмы поиска закономерностей, модели машинного обучения и нейронные сети. От нас не спрячешься, даже если вы один из 57 миллионов наших лояльных клиентов :)
Как мы работаем? Лучшие практики из LeanDS подходят под общую коммуникацию с внутренними заказчиками. Постановка целей по OKR и SMAST, к задачам подходим через SCRUM фреймворк.  Команда ценит репрезентативность моделей, поэтому финальные решения и ключевые этапа проектов всегда включают в себя Test-Driven разработку с трекингом через DVC.
Артем
Тимлид команды
CVM
Промооптимизация
Data Science
Каждый эффект оцениваем с помощью ML-алгоритмов: временными рядами, Elastic Net, word2vec. Помимо этого мы разрабатываем автоматическую оптимизацию ассортимента и скидок для будущих промо акций.  Для этого мы строим модель прогноза, используя передовые state-of-the-art алгоритмы LSTM, Prophet. В конце подтверждаем полученный эффект проведением тщательно спланированного A/B-теста.
Languages
Pyspark
Pycharm
Platforms
Air Flow
ML Flow
В современном продуктовом ритейле промо продажи достигают 60% выручки компании. Мы анализируем эффективность промо акций с учётом возникающих дополнительных эффектов, таких как каннибализация, комплементарность, закупка впрок и многих других.
Каждый день мы работаем с 40 TB данных, используя множество передовых технологий и систем: Pyspark, Pycharm, Teradata, GitLab, Docker, Air Flow, ML Flow, облачные сервисы.
Андрей
Тимлид команды
аналитики коммерческого блока

Технологический стек

Data management
Languages
Frameworks and libraries
Platforms
стек технологий АНАЛИТИКИ
ADOPT
1
Python
2
SQL Adopt
3
Scala
4
Plotly
5
Sklearn
6
Pandas
7
Numpy
8
Keras
10
TensorFlow
11
Theano
12
PyCaret
13
DVC
14
Kedro
15
Amundsen
16
Datahub
17
Great Expectations
18
Prophet
19
Optuna
20
Apache Spark
21
Apache AirFlow
22
Apache Impala
23
Apache Hive
24
Apache Livy
25
Jupyter Lab
26
Anaconda
27
Informatica DEI
28
Azure cloud
29
DataBricks
30
Tableau
31
Qlik Sense Enterprise
32
QlikSense Desktop
33
QlikView
34
SAP Hana
35
Teradata IFX
36
Teradata Query Grid
TRIAL
37
Apache Kafka
38
Apache Hadoop
39
Apache Drill
40
Presto
41
Git
42
Docker
43
Kubernetes
44
MLFlow
45
Gitlab CI
46
SAP Business Objects
HOLD
48
IBM DB2 Universal Database
Data management
Languages and tools
Techniques
Platforms and infrastructure
стек технологий ДАТА ПЛАТФОРМЫ
ADOPT
1
3NF
2
ETL/ELT
3
MPP
4
Data Warehouse
5
Data Lake
6
Data Vault
7
DataOps
8
Data Governance
9
Business Glossary
10
Data lineage
11
Data Catalog
12
Azure Cloud
14
Teradata
15
Oracle Exadata
16
MSSQL
17
PostgreSQL
18
Hadoop
19
S3
20
Redshift
21
Python
22
SQL
23
Informatica PC / DEI
24
GoldenGate
25
SAP PowerDesign
26
Gitlab CI\CD
TRIAL
13
Amazon Web Services

Вакансии

125 вакансий в Аналитике Данных
Data engineer / DWH developer
Технологии:
Экоситема AWS, MPP RDBMS, Python
Данные и аналитика, Big Data
Технологии:
Экоситема AWS, MPP RDBMS, Python
Удаленная работа
Офис, Москва
Разработчик BI
Технологии:
Qlik Sense, QlikView, PowerBI, Tableau, HTML, SAP BusinessObjects, JavaScript, SQL
Данные и аналитика, Big Data
Технологии:
Qlik Sense, QlikView, PowerBI, Tableau, HTML, SAP BusinessObjects, JavaScript, SQL
Удаленная работа
Офис, Москва
Реферальная программа
Руководитель отдела системного анализа DWH
Технологии:
Teradata, SQL, QlikView
Данные и аналитика, Big Data
Технологии:
Teradata, SQL, QlikView
Офис, Москва
Удаленная работа
Администратор Hadoop
Технологии:
Hadoop&Yarn, Hive, HBase, Tez, Zeppelin, Zookeeper, Oozie, Solr, Spark, Knox, Ranger, Phoenix, Flink, Ranger, Monitoring, Kafka/Nifi
Данные и аналитика, Big Data
Технологии:
Hadoop&Yarn, Hive, HBase, Tez, Zeppelin, Zookeeper, Oozie, Solr, Spark, Knox, Ranger, Phoenix, Flink, Ranger, Monitoring, Kafka/Nifi
Удаленная работа
Офис, Москва
Реферальная программа
Системный администратор Unix
Технологии:
CentOS/RHEL/Debian/Ubuntu, Solaris, Bash, Apache, Nginx, DNS, Docker, Ansible, Gitlab, Exim, MySQL/Postgres, Python
Данные и аналитика, Big Data
Технологии:
CentOS/RHEL/Debian/Ubuntu, Solaris, Bash, Apache, Nginx, DNS, Docker, Ansible, Gitlab, Exim, MySQL/Postgres, Python
Удаленная работа
Офис, Москва
Офис, Краснодар
Реферальная программа
Middle Python разработчик DWH
Технологии:
Python, Teradata, Hadoop, bash
Данные и аналитика, Big Data
Технологии:
Python, Teradata, Hadoop, bash
Удаленная работа
Офис, Москва
Реферальная программа
Системный аналитик
Технологии:
BI, SQL, Teradata, Informatica
Данные и аналитика, Big Data
Технологии:
BI, SQL, Teradata, Informatica
Удаленная работа
Офис, Москва
Реферальная программа
Frontend разработчик корпоративного хранилища данных
Технологии:
JavaScript, React, Redux, HTML5, CSS
Данные и аналитика, Big Data
Технологии:
JavaScript, React, Redux, HTML5, CSS
Удаленная работа
Офис, Москва
Реферальная программа
Middle DWH developer
Технологии:
Teradata, Oracle, Informatica PC
Данные и аналитика, Big Data
Технологии:
Teradata, Oracle, Informatica PC
Удаленная работа
Офис, Москва
Реферальная программа
Главный системный аналитик
Технологии:
SQL, ORACLE, UML или Archimate, Confluence, Jira
Разработка информационных систем логистики и склада
Технологии:
SQL, ORACLE, UML или Archimate, Confluence, Jira
Удаленная работа
Офис, Москва
Офис, Краснодар
Офис, Иннополис
Реферальная программа
Senior Data Scientist
Технологии:
Python, Spark, Kafka
Данные и аналитика, Big Data
Технологии:
Python, Spark, Kafka
Удаленная работа
Офис, Краснодар
Офис, Москва
Реферальная программа
Data engineer
Технологии:
SQL, Python, Teradata, JavaScript, CSS
Данные и аналитика, Big Data
Технологии:
SQL, Python, Teradata, JavaScript, CSS
Удаленная работа
Офис, Москва
Офис, Краснодар
Реферальная программа
Ведущий системный аналитик
Технологии:
SQL, ORACLE, UML, Archimate
Разработка информационных систем логистики и склада
Технологии:
SQL, ORACLE, UML, Archimate
Удаленная работа
Офис, Москва
Офис, Краснодар
Офис, Иннополис
Реферальная программа
SQL аналитик
Технологии:
SQL
Данные и аналитика, Big Data
Технологии:
SQL
Удаленная работа
Офис, Краснодар
Офис, Москва
Реферальная программа
Главный бизнес-аналитик
Технологии:
1С / ERP, SQL, VBA
Разработка информационных систем продаж и коммерции
Технологии:
1С / ERP, SQL, VBA
Удаленная работа
Офис, Краснодар
Реферальная программа
Руководитель направления по архитектуре данных
Технологии:
SQL, Teradata, Hadoop, ETL
Данные и аналитика, Big Data
Технологии:
SQL, Teradata, Hadoop, ETL
Удаленная работа
Офис, Москва
Реферальная программа
Ведущий системный аналитик
Технологии:
SQL, ARIS, BPWIN, IDEF, Python, Confluence, Jira
проект F&R
Технологии:
SQL, ARIS, BPWIN, IDEF, Python, Confluence, Jira
Удаленная работа
Офис, Краснодар
Старший аналитик данных
Технологии:
SQL, Python, ClikSense, Confluence, Jira
проект F&R
Технологии:
SQL, Python, ClikSense, Confluence, Jira
Удаленная работа
Офис, Москва
Офис, Краснодар
Реферальная программа
Senior DWH developer
Технологии:
Тeradata, Hadoop, SAP, Ni-Fi, Kafka, GoldenGate, Python, Linux, MS SQL, PostgreSQL, Greenplum
Данные и аналитика, Big Data
Технологии:
Тeradata, Hadoop, SAP, Ni-Fi, Kafka, GoldenGate, Python, Linux, MS SQL, PostgreSQL, Greenplum
Удаленная работа
Офис, Москва