Sådan bruges klyngeanalyse i samfundsvidenskabelig forskning

Cluster-analyse er en statistisk teknik, der bruges til at identificere, hvordan forskellige enheder - som mennesker, grupper eller samfund - kan grupperes på grund af de egenskaber, de har til fælles. Også kendt som klynger, er det et sonderende dataanalyseværktøj, der sigter mod at sortere forskellige objekter i grupper på en sådan måde, at når de hører til den samme gruppe, de har en maksimal grad af tilknytning, og når de ikke hører til den samme gruppe, er deres grad af tilknytning minimal. I modsætning til nogle andre statistiske teknikker, de strukturer, der afdækkes gennem klyngeanalyse, behøver ingen forklaring eller fortolkning - det opdager struktur i dataene uden at forklare, hvorfor de findes.

Hvad er klynge?

Klynger findes i næsten alle aspekter af vores daglige liv. Tag for eksempel genstande i en købmand. Forskellige typer varer vises altid på samme eller nærliggende steder - kød, grøntsager, soda, korn, papirprodukter osv. Forskere vil ofte gøre det samme med data og gruppere objekter eller emner i klynger, der giver mening.

instagram viewer

For at tage et eksempel fra samfundsvidenskab, lad os sige, at vi ser på lande og ønsker at gruppere dem i klynger baseret på karakteristika som f.eks. arbejdsdeling, militærer, teknologi eller uddannet befolkning. Vi finder ud af, at Storbritannien, Japan, Frankrig, Tyskland og USA har lignende egenskaber og ville være samlet i hinanden. Uganda, Nicaragua og Pakistan vil også blive samlet i en anden klynge, fordi de deler et andet sæt af egenskaber, herunder lave formuesniveauer, enklere arbejdsdeling, relativt ustabile og udemokratiske politiske institutioner og lave teknologiske udvikling.

Klyngeanalyse bruges typisk i den udforskende fase af forskningen, når forskeren ikke har nogen forudfattede hypoteser. Det er normalt ikke den eneste anvendte statistiske metode, men snarere udføres i de tidlige stadier af et projekt for at hjælpe med at guide resten af analysen. Af denne grund er signifikansetestning hverken relevant eller passende.

Der er flere forskellige typer klyngeanalyse. De to mest anvendte er K-betyder klynge og hierarkisk klynge.

K-betyder Clustering

K-betyder klynge behandler observationer i dataene som objekter, der har placeringer og afstande fra hinanden (bemærk, at afstandene, der bruges i klynge, ofte ikke repræsenterer rumlige afstande). Det opdeler objekterne i K gensidigt eksklusive klynger, så objekter i hver klynge er som tæt på hinanden som muligt og på samme tid så langt fra genstande i andre klynger som muligt. Hver klynge er derefter kendetegnet ved dens middel- eller midtpunkt.

Hierarkisk klynge

Hierarkisk klyngering er en måde at undersøge grupperinger i dataene på over en række skalaer og afstande. Det gør dette ved at oprette et klyngetræ med forskellige niveauer. I modsætning til K-betyder klynge, er træet ikke et enkelt sæt klynger. Tværtimod er træet et hierarki på flere niveauer, hvor klynger på et niveau sammenføjes som klynger på det næste højere niveau. Den anvendte algoritme starter med hvert enkelt tilfælde eller variabel i en separat klynge og kombinerer derefter klynger, indtil der kun er en tilbage. Dette gør det muligt for forskeren at bestemme, hvilket niveau af klynger, der er bedst egnet til hans eller hendes forskning.

Udførelse af en klynge-analyse

Mest statistik softwareprogrammer kan udføre klyngeanalyse. I SPSS skal du vælge analysere fra menuen derefter klassificere og klyngeanalyse. I SAS, proc klynge funktion kan bruges.

Opdateret af Nicki Lisa Cole, ph.d.