Definition og eksempler på sekundær dataanalyse

Sekundær dataanalyse er analysen af ​​data, der blev indsamlet af en anden. Nedenfor gennemgår vi definitionen af ​​sekundære data, hvordan de kan bruges af forskere og fordele og ulemper ved denne type forskning.

Key takeaways: Sekundær dataanalyse

  • Primære data henviser til data, som forskere selv har indsamlet, mens sekundære data henviser til data, der blev indsamlet af en anden.
  • Sekundære data er tilgængelige fra forskellige kilder, såsom regeringer og forskningsinstitutioner.
  • Selvom anvendelse af sekundære data kan være mere økonomisk, svarer eksisterende datasæt muligvis ikke til alle forskeres spørgsmål.

Sammenligning af primære og sekundære data

I samfundsvidenskabelig forskning er udtrykkene primære data og sekundære data almindelig parlance. Primære data indsamles af en forsker eller team af forskere til det specifikke formål eller analyse, der overvejes. Her forestiller og udvikler et forskerteam et forskningsprojekt, beslutter en prøveudtagningsteknikindsamler data designet til at adressere specifikke spørgsmål og udfører deres egne analyser af de data, de har indsamlet. I dette tilfælde er de mennesker, der er involveret i dataanalysen, kendte til forskningsdesign og dataindsamlingsprocessen.

instagram viewer

Sekundær dataanalysepå den anden side er brugen af ​​data der blev indsamlet af en anden til et andet formål. I dette tilfælde stiller forskeren spørgsmål, der adresseres gennem analysen af ​​et datasæt, som de ikke var involveret i indsamlingen. Dataene blev ikke samlet for at besvare forskerens specifikke forskningsspørgsmål og blev i stedet samlet til et andet formål. Dette betyder, at det samme datasæt faktisk kan være et primært datasæt for en forsker og et sekundært datasæt til et andet.

Brug af sekundære data

Der er nogle vigtige ting, der skal gøres, før man bruger sekundære data i en analyse. Da forskeren ikke indsamlede dataene, er det vigtigt for dem at blive fortrolige med datasættet: hvordan dataene blev samlet, hvad svarskategorierne er for hver spørgsmål om, hvorvidt der er behov for at anvende vægte under analysen, hvorvidt klynger eller stratificering skal redegøres for, hvem undersøgelsespopulationen var, og ikke mere.

En stor del af sekundære dataressourcer og datasæt er tilgængelig til sociologisk forskning, hvoraf mange er offentlige og let tilgængelige. Det De Forenede Staters folketælling, det Generel social undersøgelse, og American Community Survey er nogle af de mest anvendte sekundære datasæt, der er tilgængelige.

Fordele ved sekundær dataanalyse

Den største fordel ved at bruge sekundære data er, at de kan være mere økonomiske. En anden har allerede indsamlet dataene, så forskeren behøver ikke at afsætte penge, tid, energi og ressourcer til denne forskningsfase. Undertiden skal det sekundære datasæt købes, men omkostningerne er næsten altid lavere end omkostningerne ved at indsamle en lignende datasæt fra bunden, som normalt indebærer løn, rejse og transport, kontorlokaler, udstyr og andet overhead omkostninger. Eftersom dataene allerede er indsamlet og normalt rengøres og opbevares i elektronisk format, kan forskeren bruge det meste af deres tid analyse af dataene i stedet for at gøre dataene klar til analyse.

En anden stor fordel ved at bruge sekundære data er bredden af ​​tilgængelige data. Den føderale regering udfører adskillige undersøgelser i en stor, national skala, som individuelle forskere har svært ved at indsamle. Mange af disse datasæt er også langsgående, hvilket betyder, at de samme data er blevet indsamlet fra den samme population over flere forskellige tidsperioder. Dette gør det muligt for forskere at se på tendenser og ændringer i fænomener over tid.

En tredje vigtig fordel ved anvendelse af sekundære data er, at dataindsamlingsprocessen ofte opretholder et niveau af ekspertise og professionalisme, der muligvis ikke er til stede hos individuelle forskere eller små forskningsprojekter. For eksempel udføres dataindsamling for mange føderale datasæt ofte af medarbejdere, der er specialiserede i visse opgaver og har mange års erfaring på det bestemte område og med den pågældende undersøgelse. Mange mindre forskningsprojekter har ikke dette niveau af ekspertise, da en masse data indsamles af studerende, der arbejder på deltid.

Ulemper ved sekundær dataanalyse

En stor ulempe ved at bruge sekundære data er, at de muligvis ikke besvarer forskerens specifikke forskningsspørgsmål eller indeholder specifikke oplysninger, som forskeren gerne vil have. Det er måske ikke blevet samlet i den geografiske region eller i de ønskede år eller med den specifikke befolkning, som forskeren er interesseret i at studere. For eksempel kan en forsker, der er interesseret i at studere unge, finde ud af, at det sekundære datasæt kun inkluderer unge voksne.

Eftersom forskeren ikke indsamlede dataene, har de desuden ingen kontrol over, hvad der er indeholdt i datasættet. Ofte kan dette begrænse analysen eller ændre de originale spørgsmål, som forskeren søgte at besvare. For eksempel kan en forsker, der studerer lykke og optimisme, opdage, at et sekundært datasæt kun inkluderer et af disse variabler, men ikke begge dele.

Et relateret problem er, at variablerne kan have været defineret eller kategoriseret forskelligt end forskeren ville have valgt. For eksempel kan alder være blevet samlet i kategorier snarere end som en kontinuerlig variabel, eller race kan defineres som "hvidt" og "andet" i stedet for at indeholde kategorier for hvert større løb.

En anden betydelig ulempe ved at bruge sekundære data er, at forskeren ikke ved nøjagtigt, hvordan dataindsamlingsprocessen blev udført, eller hvor godt de blev udført. Forskeren er normalt ikke interesseret i oplysninger om, hvor alvorligt dataene påvirkes af problemer såsom lav responsrate eller respondentens misforståelse af specifikke undersøgelsesspørgsmål. Undertiden er disse oplysninger let tilgængelige, som det er tilfældet med mange føderale datasæt. Imidlertid ledsages mange andre sekundære datasæt ikke af denne type information, og analytikeren skal lære at læse mellem linjerne for at afsløre potentielle begrænsninger af dataene.