Много от нас са чули фразата "клъстер анализ", но това, което означава, не е всичко. Освен това звучи повече от мистериозно! Всъщност, това е само името на метода за разделяне на извадката от данни в категории елементи по определени критерии. Например, клъстерният анализ позволява на хората да бъдат разделени на групи с високо, средно и ниско самочувствие. Казано по-просто, клъстерът е тип обекти, които са сходни в даден атрибут.
Клъстерният анализ: проблеми в употреба
След като сте решили да приложите този метод в изследването си, трябва да запомните, че избраните по време на неговите клъстери могат да бъдат нестабилни. Следователно, както и в случай на факторния анализ, трябва да проверите резултатите на друга група обекти или след определен период от време да изчислите грешката на измерването. Нещо повече, най-добре е да се използва клъстер анализ на големи проби, подбрани чрез рандомизация или стратификация, защото само по този начин можем да направим научно заключение, използвайки индукция. Най-доброто от всичко, той се показал да тества хипотези, а не да ги създава от нулата.
Йерархичен клъстерен анализ
Ако трябва да класифицирате случайни елементи бързо, тогава можете да започнете с разглеждане на всеки от тях на начален етап като отделен клъстер. Това е същността на един от най-лесните за разбиране типове клъстерни анализи. Използвайки го, изследователят във втория етап образува двойки от елементи, които са сходни по своите характеристики, и след това ги свързва един с друг с необходимия брой пъти. Клъстерите, които са на минимално разстояние между тях, се определят чрез интегративна процедура. Той се повтаря, докато отговаря на един от следните критерии:
За да се изчисли правилно разстоянието между клъстерите, те често използват следните техники:
Следните критерии се използват за оценка на резултатите от клъстерирането:
Методи за клъстерни анализи
Най-често при анализиране на извадка от обекти се използва методът за минимално разстояние. Тя се състои в това, че клъстерът комбинира елементи с коефициент на сходство, който е по-голям от праговата стойност. При използване на метода за локално разстояние се разграничават два клъстера: разстоянието между точките на първия е максимално, а второто е минимално. Методът за групиране на центроиди включва изчисляването на разстоянията между средните стойности на индикаторите в групи. Методът на Уорд е най-рационално да се използва за групиране на клъстери, близки по изследваните параметри.