Дата-аналитики — самый молодой чаптер в билайне
![Дата-аналитики — самый молодой чаптер в билайне](https://cdn.prod.website-files.com/636fc4b0b73c8d61e263c165/63a322f6d9091cc211370d50_%D0%B1%D0%B8%D0%BB%D0%B0%D0%B8%CC%86%D0%BD.tech_BigData-2.webp)
Как чаптер дата-аналитиков мы запустились буквально под конец этого года — 8 ноября. И нас пока всего 88 человек.
Вообще, до этого у нас было много разных команд, которые занимались анализом данных по различным продуктовым направлениям: data governance (реализуют стратегию управления данными), antifraud (реализуют борьбу с мошенническими операциям), antispam (борется со спамерами), geoanalytics (на обезличенных геоданных помогают городам оптимизировать транспортную сеть, определять оптимальные локации для открытия новых торг. точек), beemetrics и многие другие.
Техническую экспертизу надо было расширять и развивать, поэтому решили объединить несколько команд по работе с данными в один чаптер — так и появилась наша команда.
Вот, над какими задачами мы работаем:
- изучаем, как посчитать новый сегмент пользователей, разбираемся, где происходят сбои в системе, пытаемся понять, почему пользователи ведут себя именно так, как они себя ведут;
- помогаем заказчикам лучше формировать свои требования и создаём технические задания для разработки;
- развиваем техническую платформу для аналитиков — хотим максимально автоматизировать процессы анализа данных и создать решение для работы с тестовыми данными;
- помогаем разным продуктовым командам найти хороших дата-аналитиков, адаптируем их, поддерживаем в техническом росте, делимся лучшими практиками дата-анализа.
Мы работаем с SQL — это основной инструмент для извлечения данных из баз данных. С его помощью мы выгружаем, обрабатываем и анализируем данные, чтобы из сырых данных создавать отчёты для принятия управленческих решения, создавать и математически подкреплять идеи для развитие продукта, проводить анализ показателей и эффективности.
Также работаем с PySpark (это Python API для Apache Spark) для обработки больших данных. Решение позволяет проводить параллельную обработку огромного объема информации, которую мы быстро можем проанализировать и сделать выводы.
Ну и, конечно, мы визуализируем данные и для этого используем QlikSense или библиотеки визуализации в python (matplotlib, seaborn, plotly).
Пока единственные достижения уходящего года — это создание нас как отдельного чаптера и старт работ по курсу анализа данных. Но у нас большие планы, мы будем развиваться и как техническое направление, и как комьюнити.