Microcamtest

Лайфстайл портал

Все об обработке данных и майнинге OTUS

Анализ рынка и управление

Ниже перечислены различные области рынка, где используется интеллектуальный анализ данных —

  • Профилирование клиентов — Data Mining помогает определить, какие люди покупают какие продукты.

  • Определение требований клиентов — интеллектуальный анализ данных помогает определить лучшие продукты для различных клиентов. Он использует прогноз, чтобы найти факторы, которые могут привлечь новых клиентов.

  • Cross Market Analysis — Data Mining выполняет ассоциацию / корреляцию между продажами продукта.

  • Целевой маркетинг — интеллектуальный анализ данных помогает находить кластеры модельных клиентов, которые имеют одинаковые характеристики, такие как интересы, привычки расходов, доходы и т. Д.

  • Определение покупательской модели — интеллектуальный анализ данных помогает определить покупательскую модель.

  • Предоставление сводной информации — Data Mining предоставляет нам различные многомерные сводные отчеты.

Профилирование клиентов — Data Mining помогает определить, какие люди покупают какие продукты.

Определение требований клиентов — интеллектуальный анализ данных помогает определить лучшие продукты для различных клиентов. Он использует прогноз, чтобы найти факторы, которые могут привлечь новых клиентов.

Cross Market Analysis — Data Mining выполняет ассоциацию / корреляцию между продажами продукта.

Целевой маркетинг — интеллектуальный анализ данных помогает находить кластеры модельных клиентов, которые имеют одинаковые характеристики, такие как интересы, привычки расходов, доходы и т. Д.

Определение покупательской модели — интеллектуальный анализ данных помогает определить покупательскую модель.

Предоставление сводной информации — Data Mining предоставляет нам различные многомерные сводные отчеты.

Видео

Сегментация страниц на основе видения (VIPS)

  • Целью VIPS является извлечение семантической структуры веб-страницы на основе ее визуального представления.

  • Такая семантическая структура соответствует древовидной структуре. В этом дереве каждый узел соответствует блоку.

  • Значение присваивается каждому узлу. Эта величина называется степенью когерентности. Это значение назначается для указания связного содержимого в блоке на основе визуального восприятия.

  • Алгоритм VIPS сначала извлекает все подходящие блоки из дерева HTML DOM. После этого он находит разделители между этими блоками.

  • Разделители относятся к горизонтальным или вертикальным линиям на веб-странице, которые визуально пересекаются без блоков.

  • Семантика веб-страницы построена на основе этих блоков.

Целью VIPS является извлечение семантической структуры веб-страницы на основе ее визуального представления.

Такая семантическая структура соответствует древовидной структуре. В этом дереве каждый узел соответствует блоку.

Значение присваивается каждому узлу. Эта величина называется степенью когерентности. Это значение назначается для указания связного содержимого в блоке на основе визуального восприятия.

Алгоритм VIPS сначала извлекает все подходящие блоки из дерева HTML DOM. После этого он находит разделители между этими блоками.

Разделители относятся к горизонтальным или вертикальным линиям на веб-странице, которые визуально пересекаются без блоков.

Семантика веб-страницы построена на основе этих блоков.

На следующем рисунке показана процедура алгоритма VIPS —

  Data Mining — приложения и тенденции

Интеллектуальный анализ данных широко используется в различных областях. На сегодняшний день существует ряд коммерческих систем сбора данных, но в этой области существует множество проблем. В этом уроке мы обсудим приложения и тенденции интеллектуального анализа данных.

Сферы применения DataMining

Мы будем рассматривать четыре основные сферы применения технологии DataMining подробно: наука, бизнес, исследования для правительства и Web-направление.Применение DataMining для решения бизнес-задач. Основные направления: банковскоедело, финансы, страхование, CRM, производство, телекоммуникации, электроннаякоммерция, маркетинг, фондовый рынок и другие.
  • Выдавать ли кредит клиенту

  • Сегментация рынка

  • Привлечение новых клиентов

  • Мошенничество  с кредитными карточками

Применение DataMining для решения задач государственного уровня. Основныенаправления: поиск лиц, уклоняющихся от налогов; средства в борьбе с терроризмом.

Применение DataMining для научных исследований. Основные направления: медицина,биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия,прикладная химия, исследования, касающиеся наркотической зависимости, и другие.

Применение DataMining для решения Web-задач. Основные направления: поисковыемашины (searchengines), счетчики и другие.

Электронная коммерция

В сфере электронной коммерции DataMining применяется для формирования

рекомендательных систем и решения задач классификации посетителей Web-сайтов.

Такая классификация позволяет компаниям выявлять определенные группы клиентов и проводить маркетинговую политику в соответствии с обнаруженными интересами и потребностями клиентов. Технология DataMining для электронной коммерции тесно связана с технологией WebMining.

Основные задачи DataMining в промышленном производстве:

· комплексный системный анализ производственных ситуаций;

· краткосрочный и долгосрочный прогноз развития производственных ситуаций;

· выработка вариантов оптимизационных решений;

· прогнозирование качества изделия в зависимости от некоторых параметров

технологического процесса;

· обнаружение скрытых тенденций и закономерностей развития производственных

процессов;

· прогнозирование закономерностей развития производственных процессов;

· обнаружение скрытых факторов влияния;

· обнаружение и идентификация ранее неизвестных взаимосвязей между

производственными параметрами и факторами влияния;

· анализ среды взаимодействия производственных процессов и прогнозирование

изменения ее характеристик;

· выработку оптимизационных рекомендаций по управлению производственными

процессами;

· визуализацию результатов анализа, подготовку предварительных отчетов и проектов

допустимых решений с оценками достоверности и эффективности возможных реализаций.

Маркетинг

В сфере маркетинга DataMining находит очень широкое применение.

Основные вопросы маркетинга «Что продается?», «Как продается?», «Кто является

потребителем?»

В лекции, посвященной задачам классификации и кластеризации, подробно описано использование кластерного анализа для решения задач маркетинга, как, например, сегментация потребителей.

Другой распространенный набор методов для решения задач маркетинга — методы и алгоритмы поиска ассоциативных правил.

Также успешно здесь используется поиск временных закономерностей.

Розничная торговля

В сфере розничной торговли, как и в маркетинге, применяются:

· алгоритмы поиска ассоциативных правил (для определения часто встречающихся наборов

товаров, которые покупатели покупают одновременно). Выявление таких правил помогает

размещать товары на прилавках торговых залов, вырабатывать стратегии закупки товаров

и их размещения на складах и т.д.

· использование временных последовательностей, например, для определения

необходимых объемов запасов товаров на складе.

· методы классификации и кластеризации для определения групп или категорий клиентов,

знание которых способствует успешному продвижению товаров.

Фондовый рынок

Вот список задач фондового рынка, которые можно решать при помощи технологии Data

Mining :· прогнозирование будущих значений финансовых инструментов и индикаторов поих

прошлым значениям;

· прогноз тренда (будущего направления движения — рост, падение, флэт) финансового

инструмента и его силы (сильный, умеренно сильный и т.д.);

· выделение кластерной структуры рынка, отрасли, сектора по некоторому набору

характеристик;

· динамическое управление портфелем;

· прогноз волатильности;

· оценка рисков;

· предсказание наступления кризиса и прогноз его развития;

· выбор активов и др.

Кроме описанных выше сфер деятельности, технология DataMining может применяться в самых разнообразных областях бизнеса, где есть необходимость в анализе данных и накоплен некоторый объем ретроспективной информации.

Применение DataMining в CRM

Одно из наиболее перспективных направлений применения DataMining – использование данной технологии в аналитическом CRM.CRM (CustomerRelationshipManagement) - управление

CRM (CustomerRelationshipManagement) — управление отношениями с клиентами.

При совместном использовании этих технологий добыча знаний совмещается с «добычей денег» из данных о клиентах.

Важным аспектом в работе отделов маркетинга и отдела продаж является составление  целостного представления о клиентах, информация об их особенностях, характеристиках, структуре клиентской базы. В CRM используется так называемое профилирование клиентов, дающее полное представление всей необходимой информации о клиентах.

Профилирование клиентов включает следующие компоненты: сегментация клиентов, прибыльность клиентов, удержание клиентов, анализ реакции клиентов. Каждый из этих компонентов может исследоваться при помощи DataMining, а анализ их в совокупности, как компонентов профилирования, в результате может дать те знания, которые из каждой отдельной характеристики получить невозможно.

WebMining

WebMining можно перевести как «добыча данных в Web». WebIntelligence или Web.

Интеллект готов «открыть новую главу» в стремительном развитии электронного бизнеса. Способность определять интересы и предпочтения каждого посетителя, наблюдая за его поведением, является серьезным и критичным преимуществом конкурентной борьбы на рынке электронной коммерции.

Анализ – это

Слово «анализ» произошло от древнегреческого сочетания ana + luo. В переводе на русский – «освобождать» или «распутать». Это – скрытый смысл рассматриваемого термина, независимо от выбранного метода реализации.

Анализ – изучение предоставленных сведений с последующим преобразованием в выводы. На основе оных в будущем принимаются те или иные решения, а также строятся планы и алгоритмы действий.

Реализацией поставленной задачи занимаются специально обученные люди. Их называют аналитиками. Соответствующие лица хорошо разбираются в видах анализа данных, а также в построении выводов на основе полученных материалов.

Виды анализа

Ученые давно научились классифицировать виды анализирования информации. Джеффри Лик смог выделить 6 типов реализации поставленной задачи:

  • описательный;
  • разведочный;
  • индуктивный;
  • прогностический;
  • казуальный;
  • механический.

Последний имеет большее отношение к IT, но и другие варианты достойны внимания. В предложенной классификации методы изучения данных представлены от самого простого к наиболее сложному.

Описательный метод

Является наиболее простым. Называется также «дескриптивным». Отвечает за количественное описание набора предоставляемых материалов. Относится к выборке данных, относительно которых проводится анализ. Совокупность, из которой взяты сведения, вследствие реализации не подлежат описанию. Помогает формировать информацию, представленную в дашбордах.

Яркий пример – размещение новых заказов на веб-портале с самого начала отчетного периода. Сюда же можно отнести то, сколько новых пользователей посетили сервис в Сети за прошедшую неделю.

Разведочный

Описательный метод – это только начало, хоть и очень важное. «Голых» цифр недостаточно для того, чтобы сделать не или иные выводы. Числа, полученные аналитиком, могут распределяться совершенно по-разному. Чтобы найти оптимальное решение, на помощь приходит разведочный метод.

При нем соблюдаются следующие правила и принципы:

  • графики – приблизительные, а числовые данные – точные;
  • статистические материалы предусматривают один набор вычислений;
  • сложные расчеты – наиболее верное решение для получения результатов.

Методы анализа, опирающиеся на «голое» изучение данных, способны ввести в заблуждение. Разведочный метод дает возможность подтверждения или опровержения ранее сделанных выводов и полученных сведений.

Индуктивный метод

Предыдущие два варианта – это то, что выступает под широкой зонтичной структурой. Они описывают характеристики предполагаемых наборов данных. Но без статистических исследований добиться желаемых результатов проблематично.

Индуктивный метод анализа в своей основе содержит логическое извлечение материалов. Позволяет проводить тестирование гипотез.

Статистические выводы позволяют отвечать на следующие вопросы:

  • стандартная ошибка;
  • доверительный интервал;
  • статистическая погрешность;
  • математическое ожидание по предоставленной выборке;
  • разница средних значений по двум выборкам;
  • определение размера выборки и анализ мощности статистического характера%
  • распределение данных;
  • регрессия;
  • определение критериев соответствия и ассоциированности.

Вследствие применения данного алгоритма человек получает уникальную возможность – строить гипотезы и проверять их, снижая ложноположительные результаты по максимуму.

Прогностический метод

Опирается на индуктивный анализ. Цель – изучение взаимосвязей между переменными на основе имеющихся наборов сведений, а также разработать статистическую модель. При помощи последней человек должен получить возможность прогнозировать значения для новых, неполных или будущих точек данных.

Часто используется в следующих областях:

  • утилиты для знакомств;
  • приложения для игр на биржах и фондовых рынках;
  • спам-фильтры;
  • выдача рекомендаций по контенту;
  • социальные сети;
  • кросс-продажи;
  • объявления рекламного характера/купоны;
  • прогнозы пользовательской активности;
  • политические кампании.

Прогностический анализ служит мощным инструментом в арсенале каждой корпорации. За счет него управление данными производится в несколько раз проще и быстрее.

Причинно-следственное изучение

Позволяет обнаруживать причинно-следственные связи, на основании которых аналитики в будущем строят собственные гипотезы. Иногда данный прием предусматривает внедрение НЛП-технологий в целях повышения эффективности работы бизнеса.

Основная идея: провести эксперимент (или их серию) с корректировкой параметров и контролем предельного количества остальных составляющих. Пример – эксперимент с электронной почтовой рассылкой клиентам по разным продуктам.

Алгоритмы обучения

Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.

Инструменты DataMining

 

Разработкой в секторе DataMining всемирного рынка программного обеспечения заняты как всемирно известные лидеры, так и новые развивающиеся компании. Инструменты DataMining могут быть представлены либо как самостоятельное приложение, либо как дополнения к основному продукту. Последний вариант реализуется многими лидерами рынка программного обеспечения. Так, уже стало традицией, что разработчики универсальных статистических пакетов, вдополнение к традиционным методам статистического анализа, включают в пакет определенныйнаборметодов DataMining. Этотакиепакетыкак SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Некоторые разработчики OLAP- решений также предлагают набор методов DataMining, например, семейство продуктов Cognos. Есть поставщики, включающие DataMining решения в функциональность СУБД: это Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

 

Отличия Process Mining от Data Mining

  • Data mining преимущественно используется для поиска иерархических зависимостей в больших объемах данных. Например, в каких каналах какие категории клиентов какие категории товаров покупают и как часто.
  • На вход подаются таблицы с разнородными данными из разных доменов.
  • Использует многомерные представления (кубы) с возможностью изменения уровня детализации (различные уровни агрегации) информации.
  • Process mining концентрируется не на семантических взаимосвязях данных, а на представлении данных в виде процессов.
  • На вход подаются транзакционные данные по объектам учета. Обычно в качестве таких объектов выступают (Задания, Заказы, Заявки, Наряды и так далее). Примером транзакционных данных служат журналы событий, аудиторские следы, данные о событиях и состояниях объектов (будь то статус объекта или смена ответственного подразделения).
  • Использует методы сэмплинга данных для построения модели процесса по наиболее представительным сценариям в процессе. Process mining ищет не просто связи между данными: его задача состоит в том, чтобы определить связи между шагами процесса, отклонения от нормального процесса, факторы влияния наотклонения, эффективность процесса, сценарность процесса, а также узкие места в процессе.

Теги