Аналитики из Американского управления статистики утверждают: в 2021 году количество вакансий data scientist вырастет почти до 3 миллионов. По их подсчетам, уже сейчас такие специалисты нужны около 70% американских компаний. В Украине за вторую половину 2020 были опубликованы 1600 вакансий на позицию data scientist.
К теме Киевстар Бизнес ищет специалистов в команду Big Data
Data scientist: кто это и что делает
Data scientist – это специалист, который умеет работать с большими данными Big data. Что же такое Big data?
Это огромные объемы неструктурированной информации. Например, каждый день в украинских банках совершаются миллионы операций: оплата коммунальных платежей, переводы на карту, покупка товаров. Информация об этих платежи хранится в Национальном банке Украины – это big data. Такие же базы данных собирают мобильные операторы, соцсети и поисковые сервисы.
Анализ больших данных требует структурирования / Фото Getty Images
Что такое Big data
Таким образом, Big data охватывает анализ следующих анонимизированных данных о:
- звонки;
- платежи;
- перемещения;
- предпочтения;
- погоду.
Задача data scientist – найти закономерности в этих данных и сделать на их основе выводы. Так, если правильно проанализировать все запросы интернет-магазина, можно увеличить продажи. В нужное время предложить клиенту нужный товар на нужном устройстве: рыболову – современные удочки, а предпринимателю – новую книгу о бизнесе.
Люди, которых вы можете знать: один из алгоритмов Big data
Списки каких-либо рекомендаций – будь то друзей или музыки – тоже результат обработки большого количества данных. Одним из первых такую модель запустил айтишник Джонатан Голдман. В 2006 году он устроился на должность аналитика по работе с базами данных в компанию LinkedIn.
Логотип LinkedIn / Фото Datasciencecareeroptions
Пока другие члены команды ломали голову над тем, как увеличить активность пользователей в сети, Джонатан придумал новый метод. Он проанализировал данные всех зарегистрированных пользователей и спрогнозировал: вероятность того, что одни люди теоретически могут знать других, достаточно велика. Джонатан назвал алгоритм "Люди, которых вы можете знать" и убедил генерального директора использовать его в сети. В результате по состоянию на 2020 год общее количество пользователей LinkedIn достигло 675 миллионов, из них более 300 миллионов – активные пользователи.
Какие задачи для бизнеса решает data scientist
Data scientist анализирует информацию не просто так, а чтобы на ее основе дать правдивый прогноз. Например, он может спрогнозировать эффективность рекламной кампании. Часто выводы дата-специалиста помогают в принятии решений. Например, дать клиенту банка кредит или отказать.
Кроме того, data scientist – это сотрудник, который разрабатывает решения сложных задач и может визуализировать информацию. Например, графически показать, какие платежи отклонил банк за последний год и почему.
Вот задачи, которые может решить data scientist в бизнесе:
- собрать информацию о пользователях и сгруппировать их по категориям;
- спрогнозировать, какой продукт вызовет интерес и как долго будет пользоваться спросом;
- предусмотреть, какое направление следует открыть.
Стриминговый сервис Netflix начал работать с data science еще в начале 2000-х. Уже тогда зрителям предложили оценивать фильм, который они посмотрели. А потом на основе этих оценок формировали подборки фильмов для определенных категорий. И сегодня для этого Netflix собирает такие данные:
- дата и время просмотра;
- устройство, на котором посмотрели фильм;
- запрос вводили в поиске.
Так каждый зритель получает то, что будет интересно посмотреть именно ему. Благодаря такому подходу сегодня в Netflix более 200 миллионов пользователей по всему миру.
Что должен знать data scientist
Data science – это сфера, в которой пересекаются компьютерные и математические науки. Здесь нужно обязательно знать:
- математику, статистику, теорию вероятностей;
- принципы машинного обучения;
- языка программирования SAS, R или Python;
- базы данных MySQL и Postgre;
- технологии визуализации данных и отчетности;
- хранилище данных Hadoop and MapReduce.
Особое внимание следует уделять языкам программирования.
Дата-специалист Теренс Шин в марте 2021 проанализировал около 15 тысяч вакансий в сфере data science. В результате он собрал самые востребованные навыки для специалистов по работе с данными в 2021 году. Так, среди языков программирования в них первое место занимает Python, второе - SQL.
Стилизованный логотип языка программирования Python / Фото Proglib
Нужно также отлично знать библиотеки TensorFlow и Scikit-learn. В последнее время все больше специалистов нужно со знанием облачных технологий AWS и GCP.
Сколько зарабатывают data scientist
Зарплата data scientist зависит не только от уровня профессиональной подготовки и навыков специалиста, но и от сложности конкретного проекта. По последним данным портала DOU, зимой 2021-го зарплата data scientist в Украине в среднем составила 2 тысячи долларов США.
Заработные платы специалистов в IT-сфере в Украине / Инфографика mc.today
При этом специалист с опытом работы от одного до трех лет может рассчитывать на 1,5 тысячи долларов зарплаты. А data scientist с опытом работы от четырех до шести лет уже может рассчитывать на зарплату в 3,8 тысячи долларов, что в гривневом эквиваленте составляет более 100 тысяч гривен в месяц.