Data Learning
Развитие современных технологий позволило оцифровать практически все сферы жизни и количество этих цифровых данных постоянно увеличивается. Дешевые и мощные вычислительные возможности телефонов, планшетов и персональных компьютеров, быстрые скорости паредачи данных и практически неограниченные хранилища позволяют каждую секунду наполнять мир огромными объёмами цифровых данных.
Мы живём в информационной эпохе, которая может быть названа эпохой "проклятия данных": сбор и хранение данных стали простыми и дешёвыми. Для работы с большими объёмами данных созданы удобные платформы и технологии Hadoop, MapReduce и др. Но людям и компаниям нужны информация и знания.
Чтобы не утонуть в огромных потоках данных, необходимо научиться извлекать из них пользу. Извлечение полезной информации из данных - уже не такая простая и дешёвая процедура. Проклятие дешёвого железа, дешёвых каналов передачи данных и дешёвых процессоров привело к огромным объёмам данных, огромному числу переменных и очень небольшому знанию о том, какая полезная информация скрыта в этих данных.
По оценкам McKinsey Global Institute, к 2018 году в США будет 4 миллиона должностей, связанных с данными, и нехватка порядка 190 тысяч data scientists’ов. Также формируется спрос на сотрудников, которые не являются полноценными data scientists’ами, но имеют определенные навыки работы с данными.
По данным исследования CenturyLink с каждым годом все больше компаний будет нуждаться в технологиях больших данных.
Объемы инвестиций в большие данные продолжают расти, но все это теряет смысл, если нет талантливых специалистов, способных работать с данными, анализировать результаты, генерировать идеи.
По мнению ведущего экономиста Google Hal Varian профессия data scientist отмечается как одна из самых привлекательных и перспективных в современном мире. Утверждается, что такие специалисты будут играть ключевую роль в организациях, за счёт возможностей получения конкурентных преимуществ благодаря анализу, быстрой обработке и обнаружению закономерностей в данных, прежде всего, в технологических отраслях. Анализ данных входит в область исследований всех научно-исследовательских отделов крупных компаний, многие компании имеют отдельные подразделения анализа данных:
- Google Research
Artificial Intelligence and Machine Learning research area
Data Mining research area - IBM Research
The Machine Learning Analytics Department
Knowledge Discovery and Data Mining group - Microsoft Research
Data Mining and Management research area
Machine Learning and Artificial Intelligence research area
Machine Learning department - Facebook
Facebook data science team
Почему специалистов так мало и спрос на них все время растет? Очевидный ответ - требование высокой квалификации для этой профессии. Специалисты по анализу данных, кроме прочего, должны иметь высокую математическую подготовку. По статистическим данным, 40% специалистов по data science имеют кандидатскую степень, а 10% — докторскую.
Выпускники современных вузов зачастую не обладают необходимыми компетенциями для работы в этой области. Как следствие, многие крупные компании вынуждены организовывать собственные программы подготовки по анализу данных, направленные как на обучение сотрудников специальным методам, так и восполнение пробелов базовой университетской подготовки:
- Школа анализа данных Яндекса
- Google Analytics Academy
- Microsoft Research Summer Schools
- Microsoft Research Machine Learning Seminars
В связи с развитием платформ для обучающих курсов с массовым интерактивным участием и открытым доступом через Интернет (MOOC) таких, как Coursera и Udacity, в сети появилось множество открытых онлайн-курсов по анализу данных.
Портал DataLearning имеет целью восполнить пробелы студентов и выпускников вузов в изучении дисциплин, связанных с анализом данных. Лекционный материал к каждой теме содержит базовые теоретические сведения, в материале к практическим занятиям приводится разбор типовых задач по теме. Портал DataLearning предоставляет возможность экспериментально исследовать решения в зависимости от значений исходных параметров, визуально пронаблюдать расположение данных в различных ситуациях, сравнить статистические характеристики данных и т.п. К каждой теме приводится список теоретических вопросов и проверочный тест.