Forståelse af kvantiteter: Definitioner og anvendelser

Resuméstatistikker såsom median, første kvartil og tredje kvartil er målinger af position. Dette skyldes, at disse tal angiver, hvor en specificeret del af fordelingen af data ligger. F.eks. Er median den midterste position af de undersøgte data. Halvdelen af dataene har værdier mindre end medianen. Tilsvarende har 25% af dataene værdier mindre end den første kvartil, og 75% af dataene har værdier mindre end den tredje kvartil.

Dette koncept kan generaliseres. En måde at gøre dette på er at overveje percentiler. Den 90. percentil angiver det punkt, hvor 90% procent af dataene har værdier mindre end dette antal. Mere generelt er pth percentilen er antallet n for hvilket p% af dataene er mindre end n.

Kontinuerlige tilfældige variabler

Selvom ordrestatistikkerne for median, første kvartil og tredje kvartil typisk indføres i en indstilling med et diskret datasæt, kan disse statistikker også defineres til en kontinuerlig tilfældig variabel. Da vi arbejder med en kontinuerlig distribution, bruger vi integralen. Det pth percentilen er et tal n sådan at:

instagram viewer

∫_-₶ⁿf ( x ) dx = p/100.

Her f ( x ) er en sandsynlighedsdensitetsfunktion. Således kan vi få ethvert percentil, som vi ønsker for en sammenhængende fordeling.

fraktiler

En yderligere generalisering er at bemærke, at vores orderstatistik deler den distribution, vi arbejder med. Medianen opdeler datasættet i halvdelen, og medianen eller 50th percentilen af en kontinuerlig fordeling opdeler fordelingen i halvdelen med hensyn til areal. Den første kvartil, median og tredje kvartil partitionerer vores data i fire stykker med det samme antal i hver. Vi kan bruge ovennævnte integral til at opnå den 25., 50. og 75. percentil og opdele en kontinuerlig fordeling i fire dele af samme areal.

Vi kan generalisere denne procedure. Spørgsmålet, som vi kan starte med, får et naturligt tal n, hvordan kan vi opdele fordelingen af en variabel i n lige store stykker? Dette taler direkte til ideen om kvantiler.

Det n kvantiler til et datasæt findes omtrent ved at rangordne dataene i rækkefølge og derefter dele denne rangering igennem n - 1 lige store fordele på intervallet.

Hvis vi har en sandsynlighedsdensitetsfunktion for en kontinuerlig tilfældig variabel, bruger vi ovenstående integral til at finde kvantilerne. Til n kvantiler, vi ønsker:

Den første, der har 1 /n af fordelingsområdet til venstre for det.
Den anden har 2 /n af fordelingsområdet til venstre for det.
Det rth at have r/n af fordelingsområdet til venstre for det.
Den sidste, der har (n - 1)/n af fordelingsområdet til venstre for det.

Vi ser det for ethvert naturligt antal n, det n kvantiler svarer til 100r/nth percentiler, hvor r kan være et hvilket som helst naturligt tal fra 1 til n - 1.

Almindelige mængder

Visse typer af kvantiler bruges ofte nok til at have specifikke navne. Nedenfor er en liste over disse:

Det 2 kvantile kaldes medianen
De 3 kvantiler kaldes terciles
De 4 kvantiler kaldes kvartiler
De 5 kvantiler kaldes kvintiler
De 6 kvantiler kaldes sextiler
De 7 kvantiler kaldes septiler
De 8 kvantiler kaldes octiler
De 10 kvantiler kaldes deciler
De 12 kvantiler kaldes duodeciler
De 20 kvantiler kaldes vigintiler
De 100 kvantiler kaldes percentiler
De 1000 kvantiler kaldes permiller

Naturligvis findes andre kvantiler ud over dem, der er på listen ovenfor. Mange gange svarer den anvendte specifikke kvantil til størrelsen på prøven fra en kontinuerlig fordeling.

Brug af kvantiler

Udover at specificere et datasæt, er kvantiler nyttige på andre måder. Antag, at vi har en simpel tilfældig prøve fra en population, og fordelingen af befolkningen er ukendt. For at hjælpe med at bestemme, om en model, såsom en normal distribution eller Weibull-distribution er en god pasning for den befolkning, vi samplede fra, kan vi se på kvantilerne af vores data og modellen.

Ved at matche kvantilerne fra vores eksempeldata til kvantilerne fra en bestemt Sandsynlighedsfordeling, resultatet er en samling af sammenkoblede data. Vi plot disse data i en scatterplot, kendt som et kvantil-kvantil plot eller q-q plot. Hvis den resulterende scatterplot er nogenlunde lineær, er modellen en god pasform til vores data.