методика анализа данных на основе нечеткой кластеризации

 

 

М.В. Пряжевский, асп.; рук. В.В. Топорков, д.т.н., проф.

 

 

(МЭИ (ТУ), каф. ВТ)

 

 

 

 

 

Использование алгоритмов нечеткой кластеризации на практике невозможно без проведения над объектами исследования предварительных операций, которые связаны со сбором, обработкой и представлением входных данных. Результаты работы алгоритмов также должны быть представлены в удобной для исследователя форме, который проводит их анализ и делает окончательный вывод о разбиении исследуемых объектов. Ниже предлагается общая методика проведения нечеткого кластерного анализа данных

1. Определение значений признаков исследуемых объектов. На практике значения признаков могут быть получены как при измерении некоторого физического параметра, так и в результате опроса экспертов.

2. Формализация качественных нечетких значений признаков исследуемых объектов. Для этого вводится специальная характеристическая функция принадлежности, которая принимает значения из некоторого интервала и определят степень обладания объектом тем или иным свойством.

3. Установление списка значимых признаков исследуемых объектов. В список включаются признаки, наиболее полно характеризующие объекты в смысле заданной цели. Признаки, имеющие слабые разделительные свойства, на данном этапе из рассмотрения исключаются.

4. Задание на множестве исследуемых объектов нечеткого отношения сходства. В некоторых случаях нечеткое отношение сходства имеет естественную интерпретацию. Этот этап заканчивает подготовку входных данных для работы алгоритмов нечеткого кластерного анализа.

5. Проведение нечеткого кластерного анализа – задание на множестве исследуемых объектов нечеткого отношения эквивалентности и последующее его разложение на a-уровни, либо на взвешенную сумму обычных отношений, в общем случае не вложенных друг в друга.

6. Наглядное представление результатов работы алгоритмов нечеткого кластерного анализа – изображение классов группирования исследуемых объектов с указанием значений транзитивных расстояний между ними.

7. Интерпретация результатов группирования исследуемых объектов, выбор  наиболее подходящего разбиения.