Введение в Machine Learning

Машинное обучение (machine learning) – в целом довольно молодая наука, связанная главным образом с наукой о Больших данных (Big Data). Но на самом деле вся теория машинного обучения – это лишь пересечение областей, существовавших задолго до появления науки о Больших данных, а именно – математической статистики, математического анализа, численных методов, теории вероятностей и оптимизации.

Возникает логичный вопрос. Почему сейчас появилась необходимость в отдельно науке? Дело в том, что примерно до 90-х годов XX столетия вычислительные мощности компьютеров были очень ограничены, памяти не хватало, и просто невозможно было даже хранить такие внушительные объемы данных, какие подвергаются обработке сейчас.

Здесь следует, наверное, упомянуть еще одно новомодное словечко – Data Mining или извлечение знаний. Под дата майнингом понимается поиск полезной информации, получениях новых сведений и схем из заведомо большой выборки данных. Для банков эта может быть информация о клиентах и решение такой распространенной задачи, как кредитный скоринг. Для автомобильных дилеров – это поиск потенциальных клиентов, улучшение сервиса и обеспечение конкурентоспособности. Для медиков – системы автоматической медицинской диагностики. Все эти задачи могут быть решены и решаемы средствами машинного обучения. Конечно, точность результатов для разных задач может быть различной и меняться в зависимости от выбора алгоритмов и самих данных. Машинное обучение – это не только математика и строгий вывод, но и определенного рода искусство, для постижения которого может потребоваться не один год. Но все в ваших руках!

 

Объекты и признаки.

 

В любой задаче машинного обучения фигурируют понятий объекта и признаков.  Поясним на примере. В системе медицинской диагностики заболеваний в качестве объекта может выступать пациент, а в качестве признаков – различные биометрические данные вроде температуры тела, наличия головной боли, тошноты и так далее. Имея в распоряжении эти данные, мы можем построить алгоритм, который с некоторым процентом ошибок определит, чем болен человек.

Другой пример, который приводят, кажется, на любой конференции, посвященной машинному обучению – кредитный скоринг. Задача кредитного скоринга очень важна для банка. Она заключается в решении выдачи клиенту кредита на ту или иную сумму.  В этом случае в качестве объекта может выступать сам клиент. А в качестве признаков – сведения из анкеты, которую он заполнил.

Признаки могут быть разных типов:

 

— бинарные – принимают только два значения (-1, 1). Они обозначают наличие или отсутствие того или иного признака у объекта. Например, состоит ли человек в браке. Это пример бинарного признака.

— номинальный признак – принимает значение из диапазона (0, +Infinity).

— вещественный признак – любые вещественные значения.

 

В машинном обучении объект принято изображать в виде вектора Xi в многомерном пространстве признаков.

 

Xi = (p1, p2, … pn), где

 

n – количество измеряемых признаков.

 

Все множество объектов X называют исходной выборкой.

В общем задача обучения выглядит следующим образом: у нас есть множество объектов и множество ответов, например, сведения о том, какому классу принадлежит объект. В итоге все сводится к определению некоторой зависимости между объектом и ответом. То есть по обучающей выборке мы эту зависимость восстанавливаем и строим некоторый алгоритм, который будет пригоден для работы с новыми объектами. Чтобы контролировать качество работы алгоритма вводится понятие функционала (функции) качества.

В зависимости от типа функционала качества выделяют следующие типы обучения:

  • обучение с учителем
  • обучение без учителя
  • обучение с подкреплением

 

Задачи Машинного обучения.

 

Теперь чуть подробнее остановимся на типах решаемых задач машинного обучения:

 

— регрессионный анализ

— классификация

— кластеризация

 

Задачи регрессии.

Задачи регрессии считаются одними из самых простых задач интеллектуального анализа данных. Решение задачи регрессионного анализа состоит в предсказании значения некоторой величины – признака по доступной исходной выборке. Одним из примеров может служить предсказание о заработной плате человека, проживающем в том или ином уголке страны. То есть, собрав, достаточную выборку данных о людях, работающих в разных регионах, можно выбрать для себя место, где стоит поработать 🙂

 

Классификация.

Если у нас есть сведения о том, на какие группы можно разбить все множество объектов и хотим определять принадлежность новых объектов к тому или иному классу, используются методы классификационного анализа. Здесь вся выборка объектов делится на два типа:

—  Объекты исходной выборки, относящиеся к тому или иному классу с известным значением индекса класса для каждого объекта. Эта выборка называется обучающей.

— Контрольная выборка, на которой проверяется успешность выполнения алгоритма и коррекция результатов с целью получения более качественных результатов.

 

Кластеризация.

Кластеризация – это задача разбиения исходного множества объектов на подмножества по выбранному критерию. Кластеризация, в отличие от классификации, является методом обучения без учителя, так как здесь мы не имеем понятия о самих классах, как таковых.

Существует большое число методов кластеризации, с которыми мы обязательно поработаем. Одними из первых таких методов будут способы кластеризации, основанные на понятии расстояния (distance) между объектами.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *