[it-konsultant@blog]:~$

Data Scientist и курсы машинного обучения в вопросах и ответах

За последние годы большинство обучающих IT-ресурсов добавили в свои программы машинное обучение, курсы, посвященные науке о данных, анализу данных или дата-инжинирингу. Некоторые из этих ресурсов выдают дипломы о повышении квалификации, профессиональной переподготовке или даже магистерскую степень, а иногда включают в программы стажировку на живых проектах.

Машинное обучение: что это

Машинное обучение – это методы обучения искусственного интеллекта. Разработчик не предписывает программе, как ей поступить в той или другой ситуации, а создает модель, которая на тысячах или миллионах примеров обучается давать верные прогнозы.

Что изучает специалист в области ML

Специалист в области машинного обучения осваивает математику, программирование (обычно это Python), библиотеки и алгоритмы работы с набором готовых моделей. На выходе такие разработчики, в зависимости от направления, способны:

  1. создавать новые модели, в том числе нейронные сети;
  2. обучать уже созданные и быстро находить к ним подходы;
  3. адаптировать результаты работы первых двух специалистов под массового пользователя или заказчика.

Заказчиками на такую работу сегодня выступают IT компании, банки и сотовые операторы, интернет-магазины. Востребованы такие разработчики и в науке и медицине.

Где востребовано машинное обучение

Программа, созданная на основе искусственного интеллекта, фиксирует гораздо больше закономерностей, чем человек.

Машинное обучение применяется везде, где возможно на основании предыдущего опыта предсказать некоторое будущее или создать нечто новое, например:

  1. в IT;
  2. в науках (и в гуманитарных, и в естественных);
  3. в медицине;
  4. в ретейле;
  5. в госструктурах;
  6. в банковской сфере и экономике;
  7. в области развлечений.

«Будущим», которое предсказывает компьютер, может быть что угодно: от поведения людей или животных до изменения экосистем или движения рынка акций. От модели ожидается принятие самостоятельного решения, основанного на обработке проанализированных случаев и выявленных закономерностей.

Чем машинное обучение отличается от обычного программирования

Традиционное программирование основано на дедуктивном принципе.

До машинного обучения программа обрабатывала события и выдавала результат на основании вложенных в нее логических законов. Программист прописывал, что компьютер делает в том или другом случае. Например, на вход такая программа получала 2 числа, которые необходимо сложить и на выходе выдать сумму чисел. Результат работы такой программы предсказуем и истинен.

Обучаемая программа, точнее – модель – получает на вход массивы данных, на которых она учится, устанавливая в них закономерности. Затем на основании выявленных связей модель «высказывается» относительно новых, незнакомых ей ситуаций. Этот способ анализа больше похож на человеческое творчество и не дает 100% достоверный результат.

Как конкретно применяется машинное обучение

Поскольку созданная и обученная специалистом по ML модель способна указывать аномалии или предсказывать ожидаемое поведение, то все компании, которые могут себе это позволить, нуждаются в таких разработчиках.

Например:

  1. Сотовые операторы выявляют пользователей, в поведении которых есть признаки намерений перейти к другому оператору.
  2. Государственные структуры собирают данные с видеокамер, распознающих лица и фиксирующих признаки отклоняющегося поведения, которое может, на основании предшествующей статистики, указывать на преступное намерение.
  3. В медицине с помощью машинного обучения через программу прогоняются массивы данных о заболеваниях. Если отдельному врачу может не хватать ресурсов, например, опыта или памяти, чтобы учесть все нюансы и быстро поставить диагноз, то обученная модель указывает на вероятный диагноз, поскольку она обработала миллионы случаев, при этом ни один не выпал из памяти и внимания.
  4. В науке – как гуманитарной, так и естественной – модели фиксируют закономерности, не учтенные человеком, и прогнозируют отдаленные последствия.
  5. В банковской сфере на модель возлагается принятие первичного решения о выдаче кредита.
  6. В инвестициях и трейдинге с помощью ML создаются боты-трейдеры или консультанты, прогнозирующие дальнейшее движение курса валют или акций на основании доступных данных и прежнего поведения акций.
  7. Интернет-магазины составляют рассылки, акции и предложения на основании сходства поведения конкретного пользователя с другими пользователями, которые интересовались после одного товара – другим.

Рядовой пользователь постоянно имеет дело с приложениями, созданными с помощью машинного обучения. Именно такие приложения обрабатывают фотографии под портреты XIX века и меняют пол и возраст людям на селфи. Автомобили на самоуправлении, роботы и умная техника, работа поисковиков сегодня опираются на машинное обучение.

Дата саентист, дата аналитик и дата инженер – в чем разница?

Программы (модели) имеют внутреннее строение, функционал и интерфейс. Разные специалисты отвечают либо за разработку моделей, либо за их использование, либо за их внешний вид, который позволяет обращаться к функционалу любому пользователю или заказчику.

В вакансиях могут встречаться такие названия, как ученый по данным (data scientist), аналитик данных (data analyst). Набор требований при этом может быть примерно одинаковым. Иногда различие состоит только в том, что ученый по данным – это специалист уровнем выше, тогда как аналитик данных – джуниор.

Ученый по данным

Data scientist (ученый по данным) – специалист в области машинного обучения, который чаще всего приспосабливает готовые модели к исследовательской задаче, но может написать их и сам. Его задача – найти ответ на запрос заказчика с помощью, к примеру, нейронной сети. Эта специализация близка к научной деятельности.

Начинающему специалисту достаточно уметь пользоваться готовыми моделями и знать типовые решения распространенных задач. Профессионалу потребуется хороший уровень математики и программирования.

Аналитик данных

Под аналитиком данных может подразумеваться как специалист по машинному обучению, так и посредник между data scientist’ом и заказчиком.

В первом случае речь идет о чем-то вроде лайт-версии data scientist’а. В этом случае в круг его задач входит как составление выборки, так и подбор методов машинного обучения, выбор модели или даже ее разработка.

Во втором случае речь идет о человеке, который хорошо понимает структуру и проблемы конкретного бизнеса и способен собирать данные, которым затем будут обрабатываться специалистом по машинному обучению. Результаты этой обработки аналитик данных будет презентовать заказчику.

Инженер по данным

Инженер по данным – это смежная специальность, дающая знания вспомогательных для анализа данных инструментов. На курсах по дата инжинирингу студент изучает современные базы данных и инструменты хранения и обработки Big Data, а не само машинное обучение.

Что делает ученый по данным на рабочем месте

В рамках рабочих задач специалист по машинному обучению:

  1. входит в контекст сферы деятельности заказчика;
  2. решает, какие данные потребуются для составления прогноза;
  3. подбирает подходящее для такого типа данных и прогноза решение (выбирает модели);
  4. проверяет свою гипотезу: обучает, а затем тестирует подобранные модели на данных, с которыми они еще не работали, прослеживая достоверность выдаваемых ими результатов.

Современная терминология подвижна, поэтому такие задачи могут ставить как перед ученым по данным, так и перед специалистом по машинному обучению.

Курсы по искусственному интеллекту и диплом

Онлайн-обучение ML подразумевает проведение студента через цикл решения бизнес-задач. Это происходит неоднократно, на каждом курсовом проекте и, кроме того, это происходит в команде. Студент работает с взятыми из практики данными, участвуя в обучающих задачах от компаний или взаимодействуя с практикующим ML разработчиком из этих компаний. На выходе это дает не только знание стека технологий, но и право на такие смелые формулировки в резюме, как «опыт работы от полугода» и «опыт командной разработки».

После некоторых курсов выпускник получает официальный диплом о профессиональной переподготовке или повышении квалификации, который на практике котируется как второе высшее образование.

Таким образом, преимущества обучения на курсах это, кроме самих знаний:

  1. опыт разработки в команде;
  2. работа над живыми проектами и, возможно, стажировка в компаниях;
  3. контроль со стороны опытного ML-разработчика.

Большинство компаний выдают выпускникам официальный диплом об образовании.

Что изучается на курсах по машинному обучению

Дисциплины при обучении на специалиста в области искусственного интеллекта включают в себя:

  1. Теорию вероятностей и математическую статистику.
  2. Нужные для работы с моделями структуры языка Python и библиотеки, такие как Pandas, Matpotlib и Scikit-learn.
  3. Алгоритмы работы с ML-моделями, принципы отбора данных и выбора релевантных моделей для обработки тех или других типов информации в зависимости от ожидаемого результата.
  4. Вывод проектов в продакшн – публикация и презентация результатов работы для клиента.

На выходе студент создает модели на уровне junior’а на языке Python, применяет инструменты для решения типовых задач бизнеса и публикует свои проекты. Кроме того, курсы подразумевают формат командной работы над ML-задачами.

На годовые программы берут и гуманитариев, подходящих к математике и Python с нуля.

Куда берут, сколько платят

Ученых по данным приглашают как стартапы, так и компании, которые готовы много платить. Карьера в этой области зависит от навыков. Если от стажера или джуниора ожидается знание типовых решений и умение работать с готовыми моделями, то дальнейшее развитие потребует знания математики, программирования и опыта работы с бизнесом.

Зарплата ML-специалиста зависит от опыта работы. Уже стажер может претендовать на оклад до 50 тысяч рублей. Джуниора с опытом приглашают на зарплату до 100 тысяч. Зарплаты мидла и сениора доходят до 350 тыс. рублей.

Хотите научиться профессии Data Scientist?

Создавать аналитические системы, использовать алгоритмы машинного обучения и освоить работу с нейросетями. Наполнить портфолио и получить престижную профессию?

Запишитесь на курсы по «Профессии Data Scientist: машинное обучение»

На рынке не хватает специалистов по Data Science!