Datarengøring til dataanalyse i sociologi

Datarengøring er en vigtig del af dataanalysen, især når du indsamler dine egne kvantitative data. Når du har indsamlet dataene, skal du indtaste dem i et computerprogram som f.eks SAS, SPSS eller Excel. Under denne proces, uanset om det udføres i hånden eller en computerscanner gør det, vil der være fejl. Ligegyldigt hvor nøje dataene er indtastet, er fejl uundgåelige. Dette kan betyde forkert kodning, forkert læsning af skrevne koder, forkert registrering af sorte mærker, manglende data og så videre. Datarengøring er processen til at registrere og rette disse kodningsfejl.

Der er to typer datarensning, der skal udføres til datasæt. Det er muligt kodrensning og beredskabsrensning. Begge er afgørende for dataanalyseprocessen, fordi hvis du ignoreres, vil du næsten altid producere vildledende forskningsresultater.

Rengøring af mulig kode

Enhver given variabel har et specificeret sæt svarvalg og koder, der svarer til hvert svarvalg. For eksempel variablen køn har tre svarvalg og koder for hver: 1 for han, 2 for kvindelig og 0 for intet svar. Hvis du har en respondent kodet som 6 for denne variabel, er det tydeligt, at der er foretaget en fejl, da det ikke er en mulig svarskode. Rengøring af mulig kode er processen med at kontrollere for at se, at kun de koder, der er tildelt svarvalgene for hvert spørgsmål (mulige koder), vises i datafilen.

instagram viewer

Nogle computerprogrammer og statistiske softwarepakker, der er tilgængelige til indtastning af data, kontrollerer for disse typer fejl, når dataene indtastes. Her definerer brugeren de mulige koder for hvert spørgsmål, inden dataene indtastes. Hvis der derefter indtastes et nummer uden for de foruddefinerede muligheder, vises der en fejlmeddelelse. For eksempel, hvis brugeren forsøgte at indtaste en 6 for køn, kan computeren bippe og afvise koden. Andre computerprogrammer er designet til at teste for uegnede koder i afsluttede datafiler. Det vil sige, hvis de ikke blev kontrolleret under dataregistreringsprocessen som netop beskrevet, er der måder at kontrollere filerne for kodningsfejl, når dataindtastningen er afsluttet.

Hvis du ikke bruger et computerprogram, der tjekker for kodningsfejl under dataregistreringsprocessen, Du kan finde nogle fejl blot ved at undersøge fordelingen af svarene til hvert element i dataene sæt. For eksempel kan du generere en frekvenstabel for variablen køn og her ser du nummer 6, der blev indtastet forkert. Du kan derefter søge efter denne post i datafilen og rette den.

Beredskabsrensning

Den anden type data rengøring kaldes beredskabsrensning og er lidt mere kompliceret end mulig rengøring af kode. Den logiske struktur af dataene kan placere visse grænser for svarene fra visse respondenter eller på visse variabler. Beredskabsrensning er processen med at kontrollere, at kun de tilfælde, der skal have data om en bestemt variabel, faktisk har sådanne data. Lad os for eksempel sige, at du har et spørgeskema, hvor du spørger respondenterne, hvor mange gange de har været gravide. Alle kvindelige respondenter skal have et svar kodet i dataene. Mænd skal imidlertid enten være tomme, eller de skal have en speciel kode for ikke at svare. Hvis nogen mænd i dataene er kodet som at have 3 graviditeter, for eksempel ved du, at der er en fejl, og de skal rettes.

_Referencer

_{Babbie, E. (2001). The Practice of Social Research: 9. udgave. Belmont, Californien: Wadsworth Thomson.}