РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ...

27
ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ ЦЕНТР РЕФЕРАТ по истории и философии науки на тему: ИСТОРИЯ РАЗВИТИЯ КЛАСТЕРНОГО АНАЛИЗА Выполнил: Козлов Г.Е. Научный руководитель: д.ф.-м.н. Иванов В.В. Дубна 2012

Transcript of РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ...

Page 1: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ

УЧЕБНО-НАУЧНЫЙ ЦЕНТР

РЕФЕРАТ

по истории и философии науки

на тему:

ИСТОРИЯ РАЗВИТИЯ КЛАСТЕРНОГО АНАЛИЗА

Выполнил:

Козлов Г.Е.

Научный руководитель:

д.ф.-м.н. Иванов В.В.

Дубна

2012

Page 2: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

2

Оглавление

Введение 3

Общие сведения 4

История развития кластерного анализа 8

Основные методы кластеризации 14

Применение кластерного анализа 20

Заключение 25

Список литературы 26

Page 3: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

3

Введение

На протяжении всей своей истории, человек искал и накапливал

знания об окружающем его мире. Опираясь на полученные знания, люди

упорядочивали объекты в соответствии с их схожестью. Зачастую подобная

группировка имела важнейшее значение для выживания, например

разделение растений на съедобные и несъедобные, животных – по признаку

опасности и так далее. Этот процесс группировки объектов человеком по

некоторым признакам получил название классификация. С ростом знаний об

окружающем мире, роль классификации так же росла. Как отмечает в одной

из своих статей Р. Сокэл, классификация является интеллектуальной

деятельностью высокого уровня, необходимой нам для понимания природы

[1]. При этом, способность собирать раздражители в группы, для которых

нужна определенная реакция, присуща всем живым существам и является

результатом обучения, инстинктов, генетической памяти.

С развитием науки развивалась и классификация как один из ее

фундаментальных элементов. Но до последнего столетия этот процесс

опирался, прежде всего, на естественные возможности человека по

распознаванию образов и группировке объектов. XX век характеризуется

резким ростом научных знаний. Эффективный анализ информации

становится практический невозможным для человека в силу ее объемов и

сложности и требует новых подходов. В этих условиях, автоматизация

различных направлений человеческой деятельности путем внедрения

вычислительной техники затронула и процесс классификации. В основу

этого легла идея об использовании математических методов для группировки

объектов реального мира. Сегодня совокупность методов и алгоритмов,

используемых для автоматической группировки данных, принято называть

кластерным анализом. Исследованию истории развития данной дисциплины

и посвящена настоящая работа.

Page 4: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

4

Общие сведения

Прежде чем переходить к рассмотрению истории развития кластерного

анализа, стоит определить основные понятия и цели данной дисциплины. В

общем случае, кластерный анализ – это совокупность математических

методов, предназначенных для формирования относительно "отдаленных"

друг от друга групп «близких» между собой объектов по информации о

расстояниях или связях (мерах близости) между ними [2]. Но единого

общепринятого определения дисциплины на сегодняшний день не

существует. Это связано с тем, что кластеризация применяется во многих

областях человеческой деятельности, и в каждой отдельной задаче ее

применение имеет свои особенности.

Группы схожих объектов принято называть кластерами (от англ. cluster

– гроздь, группа, скопление). Кластером является объединение нескольких

однородных элементов, которое может рассматриваться как самостоятельная

единица, обладающая определѐнными свойствами. Свойства элементов,

степень их сходства и прочие характеристики, влияющие на их объединение,

разнятся от задачи к задаче, что не позволяет дать единое определение

кластера.

На рисунке 1 приведен пример кластеризации произвольных объектов.

Эти объекты достаточно просты и обладают ограниченным числом

характеристик: координаты, форма, цвет. В зависимости от того, какие

характеристики используются для группировки, кластеризация может дать

совершенно различные результаты. Реальные объекты обладают значительно

большим набором свойств и, следовательно, имеют больше вариантов

компоновки. Таким образом, для того, чтобы дать точное определение

кластера, нужно знать не только условия конкретной задачи, но и то, какие

именно характеристики используются в процессе группировки.

Page 5: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

5

Кластер 1

Кластер 2

Кластер 3

Рис.1. Пример кластеризации объектов

Цели кластеризации могут быть различными, но среди них можно

выделить три основных направления. Первое – понимание данных –

предполагает разбиение выборки на группы схожих объектов, что позволяет

упростить дальнейшую обработку данных и осуществлять принятие

решений, применяя к каждому кластеру свой метод анализа. В качестве

примера можно рассмотреть биологическую систематику – научную

дисциплину, в задачи которой входит разработка принципов классификации

живых организмов и практическое приложение этих принципов к

построению системы. [3].

Второе направление – сжатие данных – служит для уменьшения

объемов данных с минимальными потерями информации. Если исходная

выборка избыточно большая, то можно сократить еѐ, оставив по одному

наиболее типичному представителю от каждого кластера. Зачастую

рассмотрения одного объекта может быть достаточно для определения

характеристик всех схожих объектов с высокой вероятностью. Например,

доказав теорему о площади некоторого прямоугольника, мы можем сказать,

что она верна для всех прямоугольников на плоскости.

Третье направление – обнаружение новизны – нацелено на

обнаружение новых или редких объектов в некоторых выборках. При этом

Page 6: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

6

выделяются нетипичные объекты, которые не удаѐтся присоединить ни к

одному из кластеров.

Кластерный анализ имеет ряд преимуществ перед другими методами

классификации данных. Прежде всего, это связано с тем, что он позволяет

производить разбиение объектов не по одному, а по целому набору

признаков. Причем, влияние каждого из параметров может быть достаточно

просто усилено или ослаблено путем внесения в математические формулы

соответствующих коэффициентов. Кроме того, кластерный анализ не

накладывает ограничений на вид группируемых объектов, и позволяет

рассматривать множество исходных данных практически произвольной

природы. Еще одной особенностью кластеризации является то, что многие

алгоритмы способны самостоятельно определить число кластеров, на

которое следует разбить данные, а так же выделить характеристики этих

кластеров без участия человека только при помощи используемого

алгоритма.

Для проведения анализа данных используют меры сходства [4].

Выделяют четыре меры сходства:

1. Коэффициент корреляции – это показатель характера взаимного

влияния изменения двух случайных величин. Коэффициент корреляции

обозначается латинской буквой K и может принимать значения от -1 до +1.

Если значение по модулю находится ближе к 1, то это означает наличие

сильной связи, а если ближе к 0 – связь отсутствует или является

существенно нелинейной. При коэффициенте корреляции равном по модулю

единице говорят о функциональной связи (а именно линейной зависимости),

то есть изменения двух величин можно описать линейной функцией [5].

2. Мера расстояния устанавливает сходство или различие между

объектами. Два объекта идентичны, если описывающие их переменные

принимают одинаковые значения. В этом случае расстояние между ними

равно нулю. Меры расстояния обычно не ограничены сверху и зависят от

Page 7: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

7

выбора шкалы (масштаба) измерений. Существует много различных мер

расстояния, но наиболее часто используется евклидово расстояние [6].

3. Коэффициенты ассоциативности применяются, когда необходимо

установить сходство между объектами, описываемыми бинарными

переменными, причем 1 указывает на наличие переменной, а 0 – на ее

отсутствие.

4. Вероятностные коэффициенты сходства – при образовании

кластеров по этим мерам вычисляется информационный выигрыш от

объединения двух объектов, а затем объекты с минимальным выигрышем

рассматриваются как один.

Кластеры могут состоять из различных объектов, но все они обладают

некоторыми свойствами, наиболее важными из которых являются плотность,

дисперсия, размеры, форма и отделимость.

Плотность – это свойство, которое позволяет определить кластер, как

скопление точек в пространстве данных, относительно плотное по сравнению

с другими областями пространства, содержащими либо мало точек, либо не

содержащих их вовсе. Дисперсия характеризует степень рассеяния точек в

пространстве относительно центра кластера. Лучше всего рассматривать

дисперсию как характеристику того, насколько близко друг к другу

расположены в пространстве точки кластера. Следовательно, кластер можно

назвать «плотным», если все точки находятся вблизи его центра тяжести, и

«неплотным», если они разбросаны вокруг центра. Свойство кластеров –

размер – тесно связано с дисперсией. Если кластер можно идентифицировать,

то можно и измерить его «радиус» [7]. Это свойство полезно лишь в том

случае, если рассматриваемые кластеры являются гиперсферами в

многомерном пространстве. Форма – это расположение точек в пространстве.

Несмотря на то, что обычно кластеры изображают в форме гиперсфер или

эллипсоидов, возможны кластеры и другой формы, например удлиненные

кластеры. В последнем случае понятие радиуса или диаметра перестает быть

полезным. Вместо этого можно вычислить «связность» точек в кластере –

Page 8: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

8

относительную меру расстояния между ними. Отделимость характеризует

степень перекрытия кластеров и насколько далеко друг от друга они

расположены в пространстве. Так, кластеры могут быть относительно близки

друг к другу и не иметь четких границ, или же они могут быть разделены

широкими участками пустого пространства [8].

История развития кластерного анализа

Как уже упоминалось, классификацией, предшествовавшей

кластеризации, люди занимались с древних времен. Несмотря на это,

попытки упорядочить процесс классификации практически не

предпринимались вплоть до XIX века. Одной из первых работ в данном

направлении, которую стоит упомянуть, является теория классификации и

систематизации, предложенная французским ботаником Огюстеном

Декандолем (1778-1841) в 1813 году для классификации растений. Данная

теория получила название таксономия [9]. Декандоль ставил своей целью

дать описание и классифицировать все виды растений на земле. Именно для

этого им была разработана система классификации, в соответствии с которой

каждое растение должно принадлежать к серии таксонов последовательно

соподчиненных рангов (вид, род, семейство, класс, отдел), где таксон – это

группа дискретных объектов, связанных той или иной степенью общности

свойств и признаков и, благодаря этому, дающих основание для присвоения

им определѐнной таксономической категории [9]. Первоначально таксономия

использовалась исключительно в биологии, но позже она нашла применение

во многих других науках, имеющих дело с множествами иерархически

организованных объектов. На начальном этапе развития таксономия являлась

обособленной теорией и по отношению к кластерному анализу выступала

лишь в качестве предшественницы. Современную же таксономию принято

считать одним из направлений кластеризации.

Начало развития кластерного анализа как самостоятельной

дисциплины относится к первой половине XX века. Одной из первых

Page 9: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

9

публикаций по данной тематике считается статья польского антрополога Яна

Чекановстого, написанная в 1911 году [10]. В этой статье он выдвигает идею

«структурной классификации», содержащую основную мысль кластерного

анализа – выделение компактных групп близких объектов, а так же

некоторые способы выделения таких групп, которые лежат в основе более

поздних алгоритмов. Данный метод представляет собой домашинную

обработку данных, но отчасти создает базу для дальнейшего развития этого

направления.

Следующим важным шагом в развитии кластерного анализа стал

«метод корреляционных плеяд», разработанный советским гидробиологом

П.В. Терентьевым в 1925 году. Хотя, опубликован он был лишь спустя много

лет в 1959 [11]. Данный метод первоначально предназначался только для

кластер-анализа признаков, а не объектов. Идея метода заключается в том,

что признаки изображаются вершинами графа. Далее, вершины соединяются

ребрами тогда и только тогда, когда коэффициент корреляции между

признаками превосходит пороговое значение. Связанные компоненты такого

графа и есть кластеры признаков. Пороговое значение, в данном случае,

выступает как свободный параметр, который можно менять в зависимости от

требований задачи, но его величина должна быть близка к 1. Очевидно, что

такой подход пригоден для кластеризации не только признаков, но и

объектов и именно он лег в основу многих современных пороговых

алгоритмов и алгоритмов на графах.

Сам термин «кластерный анализ» был впервые введен и использован

только в 1939 году английским ученым Р. Трионом [12]. Интересно, что

Трион, как и Терентьев, имел в виду группировку параметров, называя

кластерный анализ «факторным анализом для бедняков». Он считал, что

вместо факторного анализа лучше выделять «грозди» показателей, и

предлагал соответствующий метод, который сводился к поиску групп с тесно

коррелирующим признаком в каждой из них [4]. Название дисциплины

произошло от английского слова cluster, которое и переводится на русский

Page 10: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

10

как гроздь, скопление. По этой причине, в первое время в СССР кластерный

анализ именовался «гроздевым анализом».

Рассматривая дальнейшее, достаточно активное, развития кластерного

анализа, следует остановиться на причинах, способствовавших данному

процессу. Первая и, пожалуй, наиболее важная причина – это активное

развитие вычислительной техники. При наличии математимаческого

алгоритма, который может быть переведен в программный код, электронно-

вычислительная машина (ЭВМ) способна справляться с рядом задач гораздо

быстрее человека и со значительно меньшими затратами. Процесс

автоматизации и компьютеризации затронул многие области человеческой

деятельности и не мог не коснуться вопросов интеллектуальной обработки

данных. Сам кластерный анализ в отсутствии ЭВМ во многом теряет смысл,

поэтому развитие вычислительной техники можно считать как причиной, так

и средством развития данной дисциплины.

Другой важной причиной является углубление знаний об окружающем

мире и необходимость более детального изучения этих знаний. Количество

информации об объектах и явлениях реального мира зачастую достигает

таких объемов, что для человека адекватно проводить их классификацию с

учетом всех параметров становится затруднительно. В этих условиях

кластерные алгоритмы гораздо лучше подходят для данной задачи,

поскольку способны достаточно быстро проводить группировку объектов,

учитывая все необходимые параметры, описанные в алгоритме.

И, наконец, третьей причиной можно назвать стремительный рост

скорости и объемов поступающей информации. Зачастую, человек просто

физически не способен рассматривать данные в темпе их поступления. Так,

например, постоянно меняющаяся информация о котировках акций на

фондовых биржах просто не может быть воспринята достаточно быстро без

ее предварительной обработки и приведения к виду, удобному для человека

(графики, таблицы). Это приводит к постоянному накоплению данных,

которые, возможно, никогда не будут рассмотрены. В таких условиях

Page 11: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

11

автоматическая группировка и сжатие данных становятся чрезвычайно

важны.

Развитие кластерного анализа осуществлялось, в основном, благодаря

многочисленным публикациям в научных журналах. Первые такие

публикации по иерархическим процедурам появились в начале 50-х годов.

Но наиболее активное развитие кластеризация получила в 60-70-х годах XX-

го века. Это время можно назвать «Золотым веком» кластерного анализа.

Толчком к столь бурному развитию этого направления анализа данных

многие исследователи считают книгу «Принцыпы численной таксономии»,

написанную Р. Сокэлом и П. Снитом [13]. Авторы книги исходили из того,

что для создания эффективных биологических классификаций, процедура

кластеризации должна обеспечивать использование всевозможных

показателей, характеризующих исследуемые организмы, производить оценку

степени сходства между этими организмами и обеспечивать размещение

схожих организмов в одну и ту же группу. При этом сходство объектов

внутри групп должно превосходить сходство групп между собой.

Последующий анализ выделенных кластеров, по мнению авторов, может

выяснить, отвечают ли эти группы разным биологическим видам. Иными

словами, Сокэл и Снит предполагали, что выявление структуры

распределения объектов в группы, помогает установить процесс образования

этих структур. А различие и сходство организмов разных кластеров могут

служить базой для осмысления происходившего эволюционного процесса и

выяснения его механизма [14]. Но, пожалуй, наиболее важной для

кластерного анализа идеей, обозначенной Сокэлом и Снитом, стало

использование именно математических процедур для определения сходства

объектов реального мира. Такой подход сегодня применяется не только в

биологии, но и в других науках.

Другим важным открытием, послужившим причиной активного

развития кластерного анализа, принято считать изобретение персептрона –

искусственной модели восприятия информации мозгом. Идея персептрона

Page 12: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

12

была предложена известным американским нейрофизиологом Френком

Розенблаттом в 1957 и реализована в виде электронной машины «Марк-1» в

1960 году. Схема персептрона изображена на рисунке 2. Он состоит из трѐх

типов элементов, а именно: поступающие от сенсоров (S) сигналы

передаются ассоциативным элементам (A), а затем реагирующим элементам

(R). Таким образом, персептроны позволяют создать набор «ассоциаций»

между входными стимулами и необходимой реакцией на выходе. Розенблатт

поставил задачу самообучения, то есть возможности образования кластеров

по естественным причинам, а не в соответствии с заданным алгоритмом.

Искусственные нейронные сети получили дальнейшее развитие и активно

применяются сегодня для обработки данных, кластеризации и распознавания

образов.

SA

R

w

{-1; 0; 1}

Рис.2. Логическая схема персептрона

Большинство современных методов кластеризации были предложены в

60-е годы XX-го века. Это время характеризуется огромным количеством

публикаций. В качестве наиболее важных можно выделить работы

следующих авторов: Г. Болла и Д. Холла, Дж. Мак-Кина – по методам k-

средних; Р. Сокала и Дж. Снита, Г. Ланса и У. Уильямса, Н. Джардайна и

Р. Сибсона – по иерархическим процедурам; Дж. Роджеса и Т. Танимото,

Э.М. Бравермана, А.А. Дорофеюка, И.Б. Мучника – по процедурам типа

последовательного формирования кластеров и диагонализации;

В.Н. Елкиной, Н.Г. Загоруйко — по эталонным алгоритмам и ряд других

исследований [4]. Эти и многие другие авторы сформировали

математическую базу для применения кластерных методов в различных

Page 13: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

13

областях науки. Более подробно основные методы кластеризации будут

рассмотрены далее.

70-е годы характеризуются значительно меньшим количеством работ

по созданию новых алгоритмов и методов. В это время осуществляются

многочисленные попытки осмысления известных алгоритмов и опыта их

применения. В этом смысле типичны работы по классификации и сравнению

различных методов кластеризации. Развитие кластерного анализа в эти годы

велось такими темпами, что число публикаций по данному направлению

удваивалось приблизительно каждые три года.

Но, не смотря на всю проделанную работу, единой системы

классификации кластерных процедур на сегодняшний день не существует.

Зачастую такие системы создаются отдельно в каждой отрасли применения

кластерного анализа. На рисунке 3 приведена обобщенная классификация

кластерных методов, характерная для большинства задач.

Рис.3. Классификация кластерных методов

После 70-80-х годов число публикаций по кластерному анализу падает,

а его развитие продолжается в более тесном контакте с теми областями, где

он используется. Основное направление этого развития – создание

спецификаций существующих алгоритмов, наиболее подходящих для

решения конкретных задач.

В этих условиях становится возможным выявить основные недостатки

и трудности кластерного анализа, которые затрудняют его использование. В

первую очередь, кластеризация затрудняется отсутствием единой стратегии и

четких определений, в том числе определения кластера. На сегодняшний

Методы кластеризации

Иерархические Неиерархические

Агломеративные (объединяющие)

Дивизимные (разделяющие)

Четкая кластеризаци

я

Нечеткая кластеризация

Page 14: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

14

день в общем случае кластером можно назвать «некоторую группу

неопределенной численности объектов некоторого вида, объединенных в

соответствии с некоторыми характеристиками». Более строгое определение

зависит от особенностей объектов, используемых характеристик объектов, а

так же способа группировки. Таким образом, строгое определение кластера

зависит от конкретной задачи. Отсутствие единой стратегии кластеризации

означает, что полученный при использовании кластерного анализа результат

является одним из возможных, причем не существуют строгие

математические методы его сравнения с аналогичными результатами,

полученными с применением других комбинаций метрик, алгоритмов

объединения и т.д. При этом использование различных методов может дать

различные (иногда – противоположные) результаты. Таким образом,

сравнение различных методов кластеризации должно проводиться отдельно

для каждой задачи, причем для этого лучше использовать специально

смоделированные данные с заранее известными верными вариантами

группировки. Еще одна трудность заключается в том, что алгоритмы

кластеризации в чистом виде зачастую плохо применимы к реальным

данным. Для их использования следует либо дорабатывать сам алгоритм,

либо подгонять под него данные.

Далее рассмотрим подробнее наиболее известные методы кластерного

анализа.

Основные методы кластеризации

Большинство современных кластерных методов относятся к семейству

иерархических. Главной отличительной особенностью таких методов

является то, что процесс объединения объектов при их использовании имеет

иерархический характер и может быть представлен виде дендрограммы

(древовидной диаграммы), где каждый уровень соответствует одному шагу

алгоритма. При этом на каждом шаге количество кластеров изменяется в

сторону увеличения или уменьшения. Работа большинства таких методов

Page 15: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

15

основана на вычислении матрицы сходства, которая содержит меры

расстояний – числа, выражающие «похожесть» каждых двух объектов.

Работа иерархических методов проиллюстрирована на рисунке 4.

A

B

C

D

E

AB

DE

CDE

ABCDE

Агломеративные методы

Дивизимные методы

Рис.4. Иерархические методы кластеризации

В зависимости от направления анализа (разделение или объединение

объектов), иерархические методы делятся на агломеративные

(объединяющие) и дивизимные (разделяющие).

Иерархические агломеративные методы (Agglomerative Nesting,

AGNES) характеризуются последовательным объединением исходных

элементов и соответствующим уменьшением числа кластеров [15].

1

2 34

5

11

1 34

5

2

1

1 32

2

31

1 12

2

41

21

1 11

1

5

11

2

Рис.5. Общая схема работы иерархических агломеративных методов

Page 16: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

16

Все такие методы просматривают матрицу сходства размерностью NxN

(где N - число объектов) и последовательно объединяют наиболее схожие

объекты. Последовательность объединений кластеров можно представить

визуально в виде древовидной диаграммы, называемой дендрограммой.

Каждый шаг, на котором объединяется пара объектов, представляется ветвью

этого дерева. Дерево изображает иерархическую организацию связей между

несколькими точками данных. На самом нижнем уровне все точки

независимы; на следующем уровне они объединяются в группы, на самом

верхнем уровне они все объединяются в одну большую группу.

Для полной кластеризации этими методами на основе матрицы

сходства размерностью NxN требуется N-1 шагов. На первом шаге события

(объекты) рассматриваются как самостоятельные кластеры. На последнем

шаге все события объединяются в одну большую группу. Общая схема

работы иерархических агломеративных методов приведена на рисунке 5.

Иерархические агломеративные методы различаются главным образом

по правилам построения кластеров. Существует много различных правил

группировки, каждое из которых порождает специфический иерархический

метод. Наиболее распространены четыре из них: одиночной связи, полной

связи, средней связи и метод Варда.

Метод одиночной связи, называемый также методом наиближайшего

соседа [16] является одним из самых простых иерархических методов, хотя и

был предложен одним из последних лишь в 1973 году. В этом методе кластер

образуется по следующему правилу: объект будет присоединен к уже

существующему кластеру, если находится достаточно близко хотя бы к

одному объекту данного кластера. Таким образом, присоединение

определяется лишь наличием единственной связи между объектом и

кластером. Главное преимущество этого метода заключается в его

математических свойствах: результаты, полученные по этому методу, не

зависят от монотонных преобразований матрицы сходства, причем другие

иерархические агломеративные методы таким свойством не обладают.

Page 17: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

17

Недостаток метода одиночной связи состоит в том, что метод приводит к

появлению «цепочек», то есть к образованию больших продолговатых

кластеров. Но в случаях, когда искомые кластеры имеют такую форму, это

оказывается достоинством данного метода.

Метод полных связей, называемый также методом наиудаленного

соседа был предложен Т. Сонерсоном в 1968 году [17]. В этом методе

правило объединения указывает, что сходство между кандидатами на

включение в существующий кластер и любым из элементов этого кластера не

должно быть меньше некоторого порогового уровня. Такое правило более

жесткое, чем правило для метода одиночной связи, и поэтому здесь имеется

тенденция к обнаружению относительно компактных гиперсферических

кластеров, образованных объектами с большим сходством.

Метод средней связи [4] разрабатывался как компромисс между

методами одиночной и полной связи. Вычисляется среднее сходство

рассматриваемого объекта со всеми объектами в уже существующем

кластере, а затем, если найденное среднее значение сходства достигает или

превосходит некоторый заданный пороговый уровень сходства, объект

присоединяется к этому кластеру. Чаще всего используется вариант метода

средней связи, в котором вычисляется среднее арифметическое сходство

между объектами кластера и кандидатом на включение. В других вариантах

метода средней связи вычисляется сходство между центрами тяжести двух

кластеров, подлежащих объединению.

Метод Варда [18], носящий имя своего создателя, был предложен в

1963 году и до сих пор является одним из наиболее популярных кластерных

методов. Он построен таким образом, чтобы оптимизировать минимальную

дисперсию внутри кластеров. Эта целевая функция известна как

внутригрупповая сумма квадратов или сумма квадратов отклонений (СКО).

На первом шаге, когда каждый кластер состоит из одного объекта, СКО

равна 0. По методу Варда объединяются те группы или объекты, для которых

СКО получает минимальное приращение. Метод имеет тенденцию к

Page 18: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

18

нахождению или созданию кластеров приблизительно равных размеров и

имеющих гиперсферическую форму.

Иерархические дивизимные (делимые) методы (DIvisive ANAlysis,

DIANA) являются логической противоположностью агломеративным

методам [15]. В начале работы алгоритма все объекты принадлежат одному

кластеру, который на последующих шагах делится на меньшие кластеры, в

результате образуется последовательность расщепляющих групп. Общая

схема работы иерархических дивизимных методов приведена на рисунке 6.

Основные представители данного направления кластеризации:

А. Ресигньо, Г.А. Маккакаро, МакНоутон-Смит, А.В. Эдвардс, Л.Л. Ковалли-

Софоза.

1

1 11

1

11

1 12

2

2

1

1 32

2

31

1 32

4

41

5 32

4

5

Рис.6. Общая схема работы иерархических дивизимных методов

Среди неиерархических методов кластеризации особого внимания

заслуживают итеративные методы. Они работают по следующему алгоритму:

1. начать с исходного разбиения данных на некоторое заданное

число кластеров; вычислить центры тяжести этих кластеров;

2. поместить каждую точку данных в кластер с ближайшим центром

тяжести;

Page 19: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

19

3. вычислить новые центры тяжести кластеров; кластеры не

заменяются на новые до тех пор, пока не будут просмотрены

полностью все данные;

4. шаги 2 и 3 повторяются до тех пор, пока не перестанут меняться

кластеры.

Общая схема работы итеративных методов представлена на рисунке 7.

В отличие от иерархических методов, которые требуют вычисления и

хранения матрицы сходств между объектами размерностью NxN,

итеративные методы работают непосредственно с первичными данными.

Поэтому с их помощью возможно обрабатывать довольно большие

множества данных. Более того, итеративные методы делают несколько

просмотров данных и могут компенсировать последствия плохого исходного

разбиения данных. Эти методы порождают кластеры одного ранга, которые

не являются вложенными, и поэтому не могут быть частью иерархии.

Большинство итеративных методов не допускает перекрытия кластеров.

1

12

2

2

1

1

1

1 22

2

2

1

1

11

2

2

3

2

Рис.7. Общая схема работы итеративных методов

Большинство свойств итеративных методов группировки могут быть

описаны с помощью трех основных факторов: выбора исходного разбиения,

типа итерации и статистического критерия. Эти факторы могут сочетаться

различным образом, образуя алгоритмы отбора данных при определении

оптимального разбиения. Различные комбинации ведут к разработке

методов, порождающих разные результаты при работе с одними и теми же

данными [Енюков И.С. «Факторный, дискриминантный и кластерный

анализ»].

Page 20: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

20

Самым используемым на сегодняшний день итеративным методом

является метод k-средних, предложенный Г. Боллом и Д. Холлом в 1965 году

[19]. Итерации по такому принципу заключаются в присоединении объектов

к кластеру с ближайшим центром тяжести. Число финальных кластеров

фиксировано и задается до начала кластеризации. Перевычисление центра

тяжести кластера может производиться как после каждого изменения его

состава, так и после того, как будет завершен просмотр всех данных. На

сегодняшний день существует множество вариантов данного метода,

отличающихся особенностями работы.

Применение кластерного анализа

Кластерный анализ используется во многих областях науки и

человеческой деятельности. Первые свои применения он нашел в биологии.

Как уже упоминалось ранее, значительный вклад в это внесли Р. Сокэл и

П. Снит, выдвинувшие идею об использовании математических методов для

исследования и группировки объектов реального мира. При помощи

кластерных методов биологам удобно проводить классификации живых

существ по самым различным признакам, исследуя взаимосвязи и историю

развития жизни на земле. Кластерные методы нашли свое применение и в

смежных с биологией дисциплинах. Так в биоинформатике их активно

используют для изучения сложных сетей взаимодействия генов и выделения

их скрытых свойств. В медицине при помощи кластерных методов удобно

проводить анализ особенностей заболеваний, эффективности их лечения, а

так же использовать для создания баз знаний и экспертных систем. В

фармацевтике – исследование эффективности применения препаратов для

различных групп людей и многое другое.

Кластерный анализ давно вышел за рамки биологии. В качестве

примеров его использования можно привести следующие задачи:

Информатика – упрощение работы с информацией, визуализация

данных, сегментация изображений, интеллектуальный поиск.

Page 21: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

21

Экономика – анализ рынков и финансовых потоков, выведение

закономерностей на фондовых биржах.

Маркетинг – сегментация рынков, анализ поведения потребителей,

позиционирование товаров.

Лингвистика – восстановление эволюционного древа языков.

Астрономия – выделение групп звезд и галактик, автоматическая

обработка космических снимков.

Более подробно я остановлюсь на задаче кластеризации откликов

детекторов ячеистой структуры, используемых в экспериментах физики

высоких энергий. Работа над данной задачей в настоящий момент

проводится в ОИЯИ в рамках участия в эксперименте CBM (Compressed

Baryonic Matter). В этом эксперименте частицы разгоняются до высоких

скоростей и сталкиваются с неподвижной мишенью. Для получения данных

используют специальные детекторы, многие из которых имеют ячеистую

структуру (Transition Radiation Detector, Muon Chamber). Схема работы таких

детекторов приведена на рисунке 8. Пролетая через плоскости детектора,

частицы оставляют на них отпечатки, как показано на рисунке 9. Каждая

частица сообщает ячейкам плоскости заряд, соответствующий близости

пролета частицы к этой ячейке.

Рис.8. Схема работы детектора ячеистой структуры TRD [20]

Page 22: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

22

Рис.9. Область плоскости детектора с отпечатками частиц [21]

Для проведения трекинга и последующих исследований, по

полученным данным необходимо с максимальной точностью и

эффективностью восстановить координаты пролета каждой из частиц по

оставленным ими отпечаткам в виде «засвеченных» ячеек. Для этой цели и

используются алгоритмы кластеризации. Задача осложняется тем, что, в

зависимости от угла пролета частицы по отношению к плоскости детектора,

она может образовывать кластеры различной формы (круглые,

продолговатые). Кроме того, частота поступления данных во время

эксперимента может достигать 107 событий в секунду. Таким образом, к

алгоритму кластеризации предъявляются высокие требования не только по

точности и эффективности, но и по скорости работы и возможности

нахождения кластеров различных форм.

Для решения этой задачи были отобраны и доработаны два

стандартных метода кластеризации, а так же создан специальный алгоритм,

соответствующий особенностям поступающих данных.

Первый из выбранных методов – метод одиночной связи. Он

присоединяет объект к кластеру, если данный объект близок к одному из

объектов, уже включенных в данный кластер. Образует кластеры-цепочки

(Рис.10). От данного метода можно ожидать высокой скорости и качества

определения продолговатых кластеров, но низкую эффективность и точность

Page 23: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

23

при работе с данными сложной структуры (соприкасающиеся и

пересекающиеся кластеры).

Рис.10. Работа метода одиночной связи

Другой метод – метод Варда – присоединяет объект к кластеру, если

данный объект близок к центру масс данного кластера. Образует круглые

кластеры (Рис.11). Продолговатые кластеры такой метод будет разбивать на

набор круглых. Метод Варда дает высокую эффективность и точность вне

зависимости от сложности данных, но его скорость работы достаточно низка.

Рис.11. Работа метода Варда

Поскольку каждый из этих методов имеет ряд недостатков, мною был

разработан новый алгоритм кластеризации, учитывающий особенности

задачи. Работа данного алгоритма основана на присоединении объектов

(ячеек) к соседям, имеющим большую, чем у них амплитуду (Рис.12). В

результате каждой ячейке с локальным максимумом заряда ставится в

соответствие отдельный кластер. Преимущества этого алгоритма в том, что

он слабо зависим от форм кластеров и сложности данных, при этом имеет

высокую скорость работы за счет своей простоты.

7 5 1

Рис.12. Работа нового алгоритма

Page 24: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

24

Для сравнения используемых алгоритмов кластеризации была

разработана специальная модель данных, позволяющая оценить их работу в

различных ситуациях. Результаты проведенного на модельных данных

тестирования приведены на рисунках 13, 14.

Рис.13. Результаты тестирования алгоритмов. Эффективность

Рис.14 Результаты тестирования алгоритмов. Время работы

Результаты сравнения алгоритмов отлично иллюстрируют общее

положение, сложившееся в кластерном анализе. При работе с одними и теми

же данными, разные методы кластеризации показывают отличные друг от

друга результаты. Так метод Варда при хорошей эффективности (более 85%)

оказался чрезвычайно медленным. Метод одиночной связи, напротив, при

высокой скорости имеет очень низкую эффективность. Алгоритм же,

разработанный с учетом особенностей задачи, является компромиссом между

этими методами. Его характеристики близки к лучшим характеристикам

методов Варда и одиночной связи, хотя и немного уступают им, но

свойственных им недостатков новый алгоритм не имеет.

Page 25: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

25

Заключение

История кластерного анализа насчитывает менее ста лет, но он успел

стать неотъемлемой частью процесса обработки информации во многих

науках и других областях человеческой деятельности. Столь активное

развитие кластеризации во многом связано с ростом мощностей

вычислительной техники и ее повсеместном применении. В отсутствии такой

техники сама идея кластер-анализа – автоматизация процесса группировки

объектов – теряет свой смысл. Возможно, именно по этой причине работы в

этом направлении практически не велись до последнего столетия.

Кластерный анализ развивался в тесной взаимосвязи с другими

дисциплинами, но, при этом, многие его алгоритмы и методы имеют

достаточно общий характер и требуют доработки для применения к

конкретным задачам. Таким образом, можно сказать, что кластерный анализ

имеет «математическое ядро», состоящее из математических алгоритмов и

формул, и «оболочку», включающую в себя особенности применения этих

алгоритмов к конкретным задачам. Схематически это представление

изображено на рисунке 15.

Физика

ДругиеБио

логи

я

Медицина

Химия

Статистика

Экономика

Информ

атика

Алгоритмыкластеризации

Рис.15. Структура кластерного анализа

Сегодня кластерный анализ является одним из наиболее

эффективных инструментов обработки больших объемов данных и

используется повсеместно, где применяется вычислительная

техника.

Page 26: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

26

Список литературы

1. Сокэл Р.Р. Кластер-анализ и классификация: предпосылки и

основные направления. В кн: Классификация и кластер /Под ред. Дж.Вэн

Райзина М: Мир, 1980, с. 7-19

2. Королев М.А. Статистический словарь. М.: Финансы и статистика,

1989, 623 с.

3. Шипунов А.Б. Основы теории систематики: Учебное пособие. М.:

Открытый лицей ВЗМШ, Диалог-МГУ, 1999, 56 с.

4. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988,

176с.

5. Гмурман В.Е. Теория вероятностей и математическая статистика:

Учебное пособие для вузов. М.: Высшая школа, 2004, 479с.

6. URL: http://www.aiportal.ru/articles/autoclassification/measure-

distance.html

7. Енюков И.С. Факторный, дискриминантный и кластерный анализ.

М:Финансы и статистика, 1989, 215 с.

8. Батракова Л.Г. Экономический анализ деятельности коммерческого

банка. М: Логос, 2005, 368с.

9. Большая советская энциклопедия: В 30 т. М.: Советская

энциклопедия, 1969-1978

10. Czekanowcki J. "Objectiv kriterien in der ethologie." Korrespondenz-

blatt der Deutschen Gesellschaft fьr Antropologie, Ethnologie, und Urgeschichte,

1911, 42: 1-5

11. Терентьев П.В. Метод корреляционных плеяд//Вестник ЛГУ. 1959,

№9 с.137-141

12. Tyon R.G. Cluster analysis. L.: Ann Arbor Edwards Bros, 1939, 139 p.

13. Sokal R., Sneat P.(1963) Principles of Numerical Taxonomy. San

Francisco: W.H.Freeman, 1963, 359 p.

14. URL: http://www.biometrica.tomsk.ru/cluster_1.htm

Page 27: РЕФЕРАТnewuc.jinr.ru/img_sections/file/Aspirant/referat_phil-12...ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ УЧЕБНО-НАУЧНЫЙ

27

15. Чубукова И.А. Интеллектуальный анализ данных (data mining).

Лекция 13, 2006

16. Sibson R. SLINK: An optimally efficient algorithm for the single-link

cluster method, The Computer Journal, Vol. 16, 1973, p. 30-34

17. Sorensen T. A method of establishing groups of equal amplitude in plant

sociology based on similarity of species content // Kongelige Danske

Videnskabernes Selskab. Biol. krifter., Bd V, № 4, 1968, p. 1-34

18. Ward J.H. Hierarchical grouping to optimize an objective function, J.

Amer. Statist. Assoc., Vol. 58, 1963, p. 236-244

19. Ball G.H., Hall D.J. ISODATA, A novel method of data analysis and

pattern classification, Stanford Research Institute, Menlo Park, CA, Tech. Rep.,

1965

20. Лебедев А.А. Алгоритмы и программное обеспечение для

реконструкции треков в детекторе переходного излучения и в мюонной

системе эксперимента CBM Дубна: ОИЯИ, 2010, 23с.

21. Kryshen E. Simulation of MUCH detector and readout issues, 17th

CBM Collaboration Meeting. Dresden, 2011