Analyse af data: 4 trin

Denne artikel beskriver de fire hovedtrin, der er involveret i analyse af data. Trinnene er: 1. Etablering af kategorier eller klassificering af data 2. Kodning 3. Tabulering 4. Statistisk analyse af data.

Trin # 1. Etablering af kategorier eller klassificering af data :

Samfundsvidenskabelig forskning involverer generelt et stort antal svar på forskellige former for spørgsmål eller stimuleringer præsenteret for prøven eller 'befolkningen' af respondenterne. Disse svar kan være verbale eller ikke-verbale.

Det er klart, at hvis et stort antal forskellige slags svar skal organiseres, så de kan bruges til besvarelse af forskningsspørgsmålene eller i tegning generaliseringer, skal de grupperes i et begrænset antal kategorier eller klasser. For at tage et simpelt eksempel, formoder du, at der stilles spørgsmål til respondenterne: "Er du til fordel for den objektive type eksamen for universitetsstuderende?"

Respondenternes svar kan eventuelt grupperes i fire brede kategorier, som under:

(a) "Ja" svar.

(b) "Nej" svar.

(d) "Svarede ikke."

Antag et andet spørgsmål, der blev stillet til respondenterne, "Til hvilken social klasse vil du sige, at du tilhører?"

Svarene fra respondenterne kan grupperes i følgende kategorier:

(a) øverste klasse

(b) middelklasse.

(d) "Kan ikke sige."

(e) Andre svar (som "Jeg tror ikke på sociale klasser." "Det betyder næppe, hvor jeg hører hjemme" osv.).

En forudsætning for at træffe en beslutning om de kategorier, der skal indføres til gruppering af dataene, er, at forskeren skal vælge et passende klassifikationsprincip. Forskningsspørgsmålet eller hypotesen, hvis nogen er formuleret, giver et godt logisk grundlag for valg af klassificeringsprincip.

Antag, at hypotesen i en undersøgelse er:

"Studerende, der har haft erfaring med at studere i samfundskoler, vil have en mere positiv holdning til systemet med meduddannelse."

Her er naturligvis et af principperne for klassificering af svarene, om respondenten har haft tidligere erfaring med co-uddannelsessystem eller ej. Et andet grundlag for at klassificere svar ville være graden af favorithed eller utilgængelighed udtrykt i meduddannelsessystemet. Andre klassificeringsbaser kan også påberåbes afhængigt af hvilke yderligere sammenslutninger der skal undersøges.

Det første grundlag for klassificering ville give to kategorier af svar:

(a) Said, de havde tidligere erfaring med meduddannelse

(b) Sagde, at de ikke havde nogen tidligere erfaring med meduddannelse.

Disse to kategorier indeholder inden for sig hele rækken af svar (forudsat selvfølgelig, at ingen respondent nægtede at svare eller ikke reagerede eller gav noget andet svar.) Ingen svar på ovenstående antagelse ligger uden for kompasset mellem disse to kategorier. Disse to kategorier danner sammen det såkaldte "kategori-sæt".

Et "kategori-sæt" skal opfylde følgende tre krav:

(1) Sættet af kategorier bør udledes af et enkelt klassificeringsprincip. Dette krav er ret forståeligt, fordi hvis mere end et princip om klassificering er ansat, kan et enkelt svar påberåbes af mere end en kategori.

Således vil kategorierne ikke være uafhængige af hinanden. Hvis vi for eksempel har tre kategorier, der udgør kategorisættet, f.eks. Mand, kvinde, barn, der naturligvis hidrører fra to klassificeringsprincipper, nemlig henholdsvis køn og alder, kan en enkelt sag (respondent) være dækket af mere end en kategori i kategorisættet.

For eksempel kan et barn også være en mand, en kvinde kan også være et barn og så videre. Klassificeringsprincippet kan dog være en sammensat, dvs. bestående af to eller flere kriterier, dvs. mandlig barn, kvindelig barn mv.

(2) Det andet krav er, at kategorisættet skal være udtømmende, det vil sige, det skal være muligt at placere alle svar i en af kategorierne i sætet. 'Intet svar' bør udelades for mangel på en passende kategori i det sæt, der vil indeholde det.

Uanset hvad der er svarene, skal det være omfattet af en kategori inden for sættet. For eksempel, hvis verdens befolkning skulle klassificeres på grundlag af deres racemateriale, ville kategoristellet bestå af tre kategorier, nemlig a) kaukasoid, b) negroid og c) mongoloid, klart ikke være en udtømmende kategori i overensstemmelse med ovenstående krav, da den ikke indeholder en enkelt kategori, hvor mange indiske folk (og nogle andre) kan finde et sted.

(3) Det sidste krav er en følge af den første, nemlig at kategorierne i sættet udelukker hinanden. det vil sige, at kategorierne ikke skal overlappe hinanden. Således ville der ikke kræves noget svar af mere end en kategori inden for sættet.

Etablering af kategorier for data karakteristiske for samfundsvidenskab er ikke altid en nem opgave. Klassificeringsprincippet kan ofte være en sammensat en (i modsætning til simple, ensartede). Opgaven med at tegne alle de gensidigt eksklusive kategorier, som sammen ville udmunde det samlede univers af svar på grundlag af et sammensat klassificeringsprincip, er faktisk en krævende, krævende fantasi.

Det er en stor hjælp i sådanne tilfælde at reducere de attributter, der udgør det sammensatte princip for klassificering til symboler eller koder og tegne ved hjælp af teknikken med boolsk ekspansion, hele rækken af mulige kategorier, der omfatter kategorisættet.

Lad os tage et meget simpelt eksempel. Antag forskeren at betragte tre attributter, f.eks. Køn (mandlig kvinde), alder (under 21 år eller over 21 år) og civilstand (gift eller enkelt) som bestanddele i hans enkelt (men sammensatte) klassifikationsprincip og reducerer disse til symboler som under:

Mand = S, Kvinde = S Tj

Under 21 år = A, Over 21 år = A.

Gift = M, Single = M.

Det resulterende kategorisæt vil være den udtømmende totalitet bestående af alle mulige kombinationer af disse tre attributter, der omfatter sammensatte klassificeringsprincippet. De mulige kombinationer, dvs. kategorier, vil være 2 ³ = 2 x 2 x 2 = 8 i antal.

Disse er som under:

(1) SAM

(2) S AM

(3) S A D M

(4) SA M ^

(5) S A A M M

(6) S A A M.

(7) S A t M m

(8) S A A M M.

Afkodning, dvs. at erstatte de reelle konnotationer for symbolerne, får vi otte gensidigt eksklusive kategorier, som læses som under:

(1) mænd under 21 og gift

(2) Hunner under 21 år og gift.

(3) mænd over 21 år og gift

(4) mænd under 21 år og ugifte

(5) Kvinder over 21 år og gift.

(6) Hunner under 21 år og ugifte.

(7) mænd over 21 år og ugifte

(8) Hunner over 21 år og ugifte.

På samme måde, hvis sammensatte klassificeringsprincippet består af fire attributter, skal vi have 2 ⁴ = 2 x 2 x 2 x 2, dvs. 16 gensidigt eksklusive kategorier. Det skal nu være klart, hvordan denne metode til oprettelse af kategorier, snarere end intuition, gør klassificeringsopgaven meget lettere og narrebestandig.

Det er indlysende, at etableringen af et sæt kategorier er forholdsvis let, hvis svarene fra respondenterne under undersøgelsen er ret enkle og klare, og så kategorierne let kan defineres på en entydig måde. Selvom dette er den måde, kategorierne altid skal defineres på, er opgaven meget vanskeligere med visse typer indhold.

Antag i en undersøgelse, at forskeren spurgte de mandlige elever: "Hvordan vil du sige, at de kvindelige studerende føler at studere i samme kollegium med mandlige elever som dig?" Svarene vil sandsynligvis spænde fra indikationer af yderst favorable holdninger (beregnet til kvindelige studerende ) til imputationer af yderst ugunstige holdninger. Antag, det er nogle af svarene fra respondenterne.

(1) De kan godt lide ideen. '

(2) Jeg tror ikke, at de har det.

(3) 'De tror det sænker dem.'

(4) Jeg kommer ikke i kontakt med dem, så jeg ville ikke vide det.

(5) "De hader det."

(6) "Nogle af dem kan lide det, nogle gør det ikke."

(7) 'De vil studere her, så de kan sige, at de ikke er mindre end mændene.'

(8) 'I et rent damerhøjskole ville de savne meget, så de synes at kunne lide det her.'

Med hensyn til ovenstående svar ville det ikke være vanskeligt at udvikle et enkelt sæt af kategorier baseret på klassificeringsprincippet for gunstige mod ugunstige holdninger, der blev tilagt pigeelever. Men vi finder, at både gunstige og ugunstige svar formidler forskellige nuancer af betydninger.

Den mandlige studerende, der siger: "De (pigestudenterne) vil studere her, så de kan sige, at de ikke er mindre end mænd", formidler noget andet end en, der siger: "De kan lide ideen." På samme måde siger den mandlige studerende, der siger, "De tror det sænker dem" siger igen noget andet end den der siger, "de hader det."

Således ser vi to attributter, dvs:

(1) Tillæggelse af gunstige eller ugunstige holdninger til piger, og

(2) Eksplicit henvisning eller manglende henvisning til ydelser eller skade, der støtter gunstige eller ugunstige holdninger, er to væsentlige bestanddele af et sammensat klassifikationsprincip.

Kategorierne i kategorisættet i overensstemmelse med de ideelle krav i et tidligere kategoriseret sæt kan sættes ned som under:

(1) Gunstig holdning til pige elever, forklaret med hensyn til fordele, de stammer fra at studere i samme college med mandlige studerende (for eksempel 7 og 8 svar).

(2) Gunstig holdning til piger uden udtrykkelig henvisning til fordele, der er opnået ved at studere i samme kollegium med mænd (f.eks. Erklæring nr. 1).

(3) Neutral eller imødekommende holdning indregnet for piger (f.eks. Erklæring nr. 1).

(4) Ufordelt holdning indstillet til piger, forklaret med hensyn til ulemper (negative fordele) de stammer fra at studere i samme college med mandlige studerende.

(5) Ufordelagtig holdning til piger uden udtrykkelig henvisning til ulemper eller tab som følge af meduddannelse (fx erklæring nr. 5).

(6) Andre svar, kan ikke sige, intet svar, ved ikke (f.eks. Erklæring nr. 4).

Ovennævnte illustration vil give en ide om, hvor meget kompleks en klassifikation i samfundsvidenskab kan få. Arbejde med så komplekse kategorier kræver stor omhu og indsats ved klassificering. Selv når kategorierne er blevet udarbejdet omhyggeligt, vil deres anvendelse frembyde større problemer end brugen af kategorier mere snævert og nøjagtigt defineret.

Hvis en mandlig studerende i ovenstående eksempel siger: "De kan godt lide det her, de ved hvorfor" det er et helt spørgsmål om, hvorvidt denne erklæring indebærer en fordel. Der skal således etableres yderligere regler for at håndtere sådanne svar.

Det må siges selv på bekostning af en vis gentagelse, at selv om det i princippet er muligt at anvende mange attributter af svar til formulering af kategorisæt, er det i praksis ofte unødvendigt, uøkonomisk og uretfærdigt, da ikke alle disse klassificeringsprincipper bære på formålet med undersøgelsen.

Lad os nu tænke på at overveje problemet med at vælge et klassificeringsprincip for kategorisering af ustruktureret materiale (dvs. information indsamlet af ustrukturerede værktøjer).

I undersøgelser, der bruger strukturerede instrumenter til indsamling af data, der er relevante for klart formulerede forskningsspørgsmål eller -hypoteser, er det passende princip for klassificering af svaret ret tydeligt foreskrevet af arten af spørgsmålene og de sikrede svar.

Ved arbejde med ustruktureret materiale eller data er det første problem imidlertid at komme frem til beslutninger om hvilke aspekter af materialet der skal kategoriseres, dvs. hvilke klassificeringsprincipper der skal anvendes til oprettelse af kategorier.

I forsøgsundersøgelser, der defineres ikke med et velformuleret problem eller eksplicit hypotese, er beslutningen om klassificeringsprincippet vanskeligt at nå frem til. På tidspunktet for dataindsamlingen ved investigatøren ikke, hvilke aspekter der kan vise sig at være vigtigst.

Han skal derfor indsamle en stor mængde data af ustruktureret type. I løbet af analysen står forskeren over for problemet med at handle ikke alene med ustrukturerede materialer, men også med et stort antal af dem.

Det er tilrådeligt at analysere data fra en sonderende undersøgelse for at udvikle arbejdshypoteser, der vil give brugbare tilfredsstillende klassificeringsprincipper. Forskeren skal læse omhyggeligt gennem hele sit materiale, idet han hele tiden er opmærksom på de latente spor i data. Sådanne spor er ofte sikret ved at studere materialer på emner eller situationer, der står i kontrast til dem, han studerer.

En sådan undersøgelse hjælper efterforskeren til at se de vigtige forskelle mellem de to situationer. En anden fremgangsmåde til at få ved sådanne spor er at sammensætte ens sager i grupper, der synes at være tætte eller høre at høre sammen, og så spørge sig selv, hvad der førte ham til at føle, at sagerne, han placerede i en enkelt gruppe, er ens.

Endnu en anden tilgang, der kan stimulere spor til formulering af arbejdshypotesen, er at bemærke forhold, der synes overraskende ud fra enten teoretiske forventninger eller sund fornuft og derefter at søge efter mulig forklaring af de overraskende eller uventede fænomener.

Det skal dog huskes, at analysen af ustruktureret materiale selv med en klar hypotese giver særlige problemer. For det første er der altid mulighed for, at oplysninger på et givet punkt mangler fra nogle af dokumenterne.

Der er også sandsynligheden for, at meget materiale ikke har direkte indflydelse på hypotesen. Desuden er der problemer med at bestemme størrelsen af enheder af materialet, som kategorierne skal anvendes på.

Hvis en forsker f.eks. Brugte case-records hos velfærdsorganisationer, skal han bestemme hvilken enhed (f.eks. Klienter, erklæringer, handlinger, socialarbejdere, sessioner med klienten eller hele rekordet) mest hensigtsmæssigt i at give svar på hans specifikke forsknings spørgsmål.

Trin # 2. Kodning:

Kodning består i at tildele symboler, normalt tal til hvert svar, der falder i en forudbestemt klasse. Med andre ord kan kodning betragtes som den klassificeringsproces, der er nødvendig for efterfølgende tabulering. Ved kodning omdannes de rå data til symboler, der kan tabuleres og tælles.

Denne omdannelse er imidlertid ikke automatisk, det indebærer en stor del af koden fra koden. 'Coder' er den officielle titel for en person, der har ansvaret for at give bestemte koder til svar, efter at de noterede notater er blevet bragt til kontoret.

Det skal dog huskes, at dommen om, hvilket svar der skal tildeles en bestemt kode, ofte foretages af en anden person end den, der går ved den officielle betegnelse af 'coder'.

Kodning kan finde sted på tre forskellige punkter i en undersøgelse på hver af disse, kan forskellige typer personer være ansvarlige for at tildele koder til de rå data. I mange undersøgelser kan respondenten selv blive bedt om at tildele koder til sin egen reaktion eller situation.

Dette gælder for mange afstemningstype og multiple choice-spørgsmål. For eksempel, når respondenten bliver bedt om at angive hvilken af de klasser (f.eks. Indkomstgrupper) han tilhører, f.eks. (A) under 3000 rupees pm, (b) Rs. 3001 / - til rs. 6000 / - pm, (c) Rs. 6001 / - til rs. 9000 / - pm, (d) Rs. 9001 / - og derover koder respondenten simpelthen ved at afkrydse sin position blandt de givne alternativer.

Det andet punkt, hvor kodningen kan finde sted, er, når intervieweren eller observatøren i løbet af dataindsamlingen kategoriserer fagets svar. Dette er hvad der gøres, når en interviewer eller observatør anvender en ratingskala for at beskrive en persons respons eller adfærd.

Det endelige punkt, hvorpå kodning kan finde sted, er naturligvis, når de rå ukategoriserede data (indsamlet specielt gennem ustrukturerede dataindsamlingsinstrumenter) deponeres i projektkontoret, og de officielle kodere udøver deres dom for at tildele bestemte koder til bestemte svar eller data.

Lad os kort sammenligne og kontrast fordelene og ulemperne ved kodning af de officielle kodere på kontoret og kodning af interviewerne eller observatørerne, der er udført i forbindelse med dataopsamling på området.

Interviewerne eller observatørerne er i stand til at lægge mærke til situationen såvel som individets adfærd. De har således flere oplysninger om, hvorpå de skal basere deres vurderinger i forhold til den korrekte kategorisering af svar i forhold til koderne, som arbejder på grundlag af skriftlige optegnelser, som måske ikke giver en fuldstændig ide om svarets reelle betydning.

En anden fordel ved kodning af dataindsamlere selv er, at både tid og arbejde kan reddes.

Tværtimod har kodning på kontoret af kodere visse signalfordele. Kodning af komplekse data, der kræver tid til refleksion, bør rådgivende udføres af kontor-koderne. På stedet kan det ikke være så kræsende at dømme, der er lavet af dataindsamlere, som afgørelser med mere tid til overvejelse.

Dommerne for dataindsamlere kan være farvet af mange faktorer, nemlig respondentens fremtoninger, accenter og svar på tidligere spørgsmål, manier osv. For det andet er der fare for, at dataindsamlerne mangler ensartethed, når kodningsresponserne.

Sammenligneligheden af data opnået fra et stort antal respondenter er således hæmmet. For det tredje kan interviewerne eller observatørerne udvikle deres egne personlige referencerammer for det materiale, de koder for. Dette ville have tendens til at gøre deres kategoriseringer upålidelige efter en tid. En fælles referenceramme er lettere at opnå og vedligeholde i kontorkodningsoperationen end i feltet.

Lad os diskutere nogle af de vigtige problemer i forbindelse med pålidelighed ved kodning. Der er mange ting, der kan fungere for at gøre dommen af kodere upålidelige. Nogle af faktorerne kan opstå som følge af de data, der skal kategoriseres, nogle af arten af de kategorier, der skal anvendes, og stadig andre kan komme fra koderne selv.

Vi skal nu kort overveje nogle af disse faktorer og de måder, hvorpå de kan overvåges.

Mange af de vanskeligheder, der opstår ved kodning, skyldes dataens utilstrækkeligheder. Ofte leverer dataene ikke tilstrækkelig relevant information til en pålidelig kodning. Dette kan skyldes mangelfuld og utilstrækkelig dataindsamlingsprocedurer. Disse vanskeligheder kan imidlertid generelt overvindes ved omhyggelig redigering af data. Processen, der består i at undersøge dataene for at forbedre deres kvalitet til kodning kendt som redigering.

Når dataindsamleren indsender sit materiale til projektkontoret, eksisterer der stadig mulighed for at eliminere mange potentielle kodingsproblemer. En omhyggelig undersøgelse af dataene, så snart de er samlet, og om nødvendigt hjælper et systematisk spørgsmålstegn ved interviewerne eller observatørerne sig for at afværge mange kodingsproblemer.

Redigering hjælper ikke kun med at undgå senere kodingsproblemer, det kan også betydeligt forbedre dataindsamlingens kvalitet ved at pege på, hvor interviewerne eller observatørerne måske har misforstået instruktioner eller måske ikke har registreret data i tilstrækkelig detaljer.

Faktisk skal redigeringen foretages i forbindelse med forudprøvning af interviewet eller observationsplanen, som træner interviewerne eller observatørerne og i virkeligheden i hele dataopsamlingsperioden. Redigering på projektkontoret går langt i at fjerne kodingsproblemer.

Således skal redigeringen foretages, mens interviewerne eller observatørerne let kan stilles til rådighed for spørgsmålstegn. Redigering indebærer en omhyggelig undersøgelse af interviewet eller observationsplanerne.

Disse bør kontrolleres for:

(1) Fuldstændighed: Redaktørerne skal sikre sig, at alle emner er behørigt udfyldt. Et tomt rum ved siden af et spørgsmål i en interviewplan kan f.eks. Betyde 'intet svar' eller 'ikke ved' eller afslag på at svar eller uanvendelighed af spørgsmål, eller spørgsmålet er blevet udeladt af tilsyn osv.

(2) Redaktøren bør undersøge interviewet eller observationsplanerne for at finde ud af, om håndskriftet eller de symboler eller koder, der er tildelt af intervieweren eller observatøren, let kan forstås af koderen.

Det er altid tilrådeligt at kontrollere læsbarheden, når materialet afleveres og om nødvendigt at få intervieweren eller observatøren til at omskrive den. Hvis dette ikke er tilfældet, kan kodning blive sat op på et stadium, hvor interviewerne eller observatørerne ikke nemt bliver tilbagekaldt til spørgsmålstegn.

(3) Redigering indebærer også at undersøge skemaerne for forståelighed. Det sker ofte, at et registreret svar er helt forståeligt for intervieweren eller observatøren, men ikke forståelig for koderen, fordi konteksten til adfærd eller respons ikke er kendt for koderen. Systematisk spørgsmålstegn ved dataindsamlerne fjerner forvirring og tvetydigheder og forbedrer kvaliteten af kodningen betydeligt.

(4) Oplysningerne bør også undersøges eller kontrolleres for at finde ud af, om der er visse uoverensstemmelser med hensyn til de svar, der er registreret i tidsplanen.

For eksempel kan en respondent have sagt som svar på et af de tidligere spørgsmål, at han aldrig havde mødt folk i en bestemt gruppe, og alligevel kunne han som svar på et senere spørgsmål have sagt noget om at besøge bestemte personer i denne gruppe i løbet af hans runder. Hvis det er tilfældet, er der et oplagt behov for at undersøge denne inkonsekvens, og få det afklaret ved at stille spørgsmålstegn ved dataindsamlerne.

(5) Det er også nødvendigt at kontrollere graden af ensartethed, hvormed interviewerne har fulgt instruktioner til indsamling og registrering af data. Kodning kan blive hæmmet, hvis der registreres et svar i andre enheder end dem, der er angivet i instruktionerne.

(6) Det skal bemærkes, at noget svar simpelthen ikke synes at være irrelevant i forbindelse med undersøgelsen. Dette vil sandsynligvis ske, hvis et spørgsmål ikke er klart arbejdet eller ikke intelligent stillet. Dataene skal derfor undersøges grundigt med henblik på at adskille de uhensigtsmæssige svar fra de relevante.

Værdien af kategoriseringen af data afhænger naturligvis af sundheden af de anvendte kategorier. Det er nødvendigt, at kategorierne ud over at være relevante for formålet med forskning også er defineret ud fra et konceptuel synspunkt.

Kodning vil være upålidelig, hvis kategorierne ikke er defineret tydeligt hvad angår indikatorer, der gælder for data her og nu. I praksis defineres kategorierne ved hjælp af eksempler fra de foreliggende data. Det er meget nyttigt, hvis illustrationer fra data viser ikke kun, hvilke slags svar der er typiske for kategorien, men også med til at skelne grænselinjen mellem tilsyneladende lignende kategorier.

Det er indlysende, at kvaliteten af kodningen påvirkes af kodernes kompetence. Træningen af kodere er således et vigtigt skridt i enhver undersøgelse.

Uddannelsen af kodere kan fortsætte med følgende faser:

For det første forklares de forskellige koder for træden (kodere) og illustreret med eksempler fra de data, der skal kategoriseres.

For det andet praktiserer alle trainee-koderne derefter på en stikprøve af dataene, de problemer, der opstår, diskuteres af koderne som en gruppe med vejlederen for at udvikle fælles procedurer og definitioner.

For det tredje bruges ledetråder som følge af praksiskodning til at gennemføre revisioner i kategorierne for at gøre dem bedre anvendelige på materialet og til at skrive de procedurer og definitioner, der er udviklet under den foreløbige kodning skriftligt.

For det fjerde, på et tidspunkt i praksisperioden, hvor relativt få nye problemer opstår, arbejder koderne på en identisk del af data uden at konsultere hinanden eller tilsynsføreren. Konsistensen eller pålideligheden af kodningen beregnes derefter for at afgøre, om det er muligt at begynde kodning med ret alvor.

Afhængigt af resultaterne af pålidelighed eller konsistenskontrol kan det besluttes at eliminere de kategorier, der synes for upålidelige eller at bruge mere tid på uddannelse af kodere eller for at eliminere kodere, der er mest inkonsekvente og så videre.

Endelig foretages periodisk kontrol for at sikre, at kodere ikke bliver skødesløse med mere erfaring, eller at de ikke udvikler personlige idiosynkratiske metoder til håndtering af nye problemer i materialet. For at sikre ensartethed og beslutning, der træffes efter kodning er begyndt, skal straks meddeles alle kodere.

Det er klart, at den konsistens og hensigtsmæssighed, som en given type svar er tildelt til en given kategori, vil have et vigtigt bidrag til resultatet af analysen, og derfor er det vigtigt at kontrollere kodens pålidelighed og at øge aftalen mellem kodere så meget som muligt.

Det er selvfølgelig svært at indstille et givet niveau af pålidelighed som den standard, der skal opnås. Forskellige typer af materialer frembyder forskellige sværhedsgrader for at opnå pålidelighed. Som regel er jo mere struktureret det materiale, der skal kodes og dermed enklere de anvendte kategorier, jo højere er pålideligheden.

Det skal bemærkes, at de typer koder, der anvendes i en undersøgelse, vil variere alt efter om dataene skal tabuleres af maskinen eller manuelt. Hvis dataene skal sorteres manuelt, er en ordbeskrivelse af klasserne tilfredsstillende.

Der kan også anvendes forkortelser eller bogstaver af alpha-bates, fx 'Y for Yes, ' N 'for No, etc. Maskintabulation kræver på den anden side, at klasser udtrykkes i numeriske symboler, da maskinerne kun kan mates med numeriske data.

Mekanisk tabulering kræver brug af stempelkort. Antallet af forskellige klasser, der kan vises på stempelkortet, er dog begrænset. Under alle omstændigheder kan alle koder, der anvendes til maskindabulation, også anvendes til håndbinding.

Hvis der skal anbringes koder på stempelkort, hvoraf to størrelser er i almindelighed, dvs. 80 søjlekort og 54 søjlekort, er det ønskeligt at bruge ti på færre klasser / kategorier for de fleste oplysninger eller svar.

Stempelkortet indeholder 10 nummererede mellemrum og en X og Y i hver kolonne, hvilket giver i alt 12 koder, der kan bruges. Det er ret kompliceret procedure at få mere end en type emne i en kolonne. For eksempel kan fødsels- og alderskoder ikke stanses i en enkelt kolonne, medmindre kun seks aldersgrupper anvendes til hver enkelt.

Trin # 3. Tabulering:

Tabulation er en del af den tekniske proces i den statistiske analyse af dataene. Det væsentlige element i tabulation er opsummering af resultater i form af statistiske tabeller.

Det er først, når rådata er opdelt i grupper og tæller af antallet af tilfælde, der falder i disse forskellige grupper, at det er muligt for forskeren at afgøre, hvad hans resultater betyder og at formidle sine resultater til forbrugeren i en form, der kan forstås let.

Tabulation afhænger naturligvis af at etablere kategorier for rå data, redigering og kodning af svar (punching og kørsel af kortene gennem maskiner til mekanisk tabulering og sortering og tælling til håndbinding).

Erfarne forskere udvikler generelt tabuleringsplaner på omtrent samme tid som de udarbejder eller konstruerer dataindsamlingsinstrumenterne og udarbejder prøveudtagningsplaner. De uerfarne forskere bekymrer sjældent sig selv med tabuleringsplaner, indtil dataene er indsamlet. Det er selvfølgelig umuligt for forskeren at forudse hele rækken af tabulation, der efterfølgende ønskes.

Han skal være bekendt nok med sit forskningsproblem eller emnet for undersøgelse for at kunne udarbejde tabeller, der vil give svar på de spørgsmål, der har givet anledning til undersøgelsen. Forskeren skal være i stand til at udarbejde passende tabuleringsplaner, hvis han anvender resultaterne fra de tidligere undersøgelser, der har elementer til fælles med den, som planerne er tegnet for.

I forsøgsundersøgelser er en bedre og sikrere procedure at pretestere dataindsamlingsinstrumentet på en stikprøve af befolkningen af den type, der vil blive dækket i den endelige undersøgelse. På denne måde kan man generelt få nogle spor i, hvad slags tabulering der er meningsfuld.

Tabulering kan ske fuldstændigt ved manuelle metoder; dette er kendt som hånd tabulation. Alternativt kan det ske ved mekaniske metoder, der anvender automatiske og hurtige kraftmaskiner til hovedparten af data, processen er kendt som mekanisk tabulering.

Forskeren skal beslutte, inden han trækker detaljerede tabuleringsplaner for sin undersøgelse, hvilken metode til tabulering han ville bruge. Denne beslutning vil blive baseret på forskellige overvejelser som omkostninger, tid, personale osv.

Både håndbinding og mekaniske tabulationsprocedurer har deres respektive fordele og begrænsninger. Forskerens opmærksomhed på disse fordele og fordømmelser er bedre at bestemme hvilken metode der passer til hans problem.

Vi skal kort gennemgå fordelene ved disse to metoder til tabulation:

(1) Mekanisk tabulering indebærer meget kontorarbejde og specialiserede operationer. Det letter selvfølgelig fart, men hastigheden kan ikke altid være en passende kompensation for ekstra kontorarbejde.

(2) Hvis antallet og typerne af de ønskede tabeller ikke er besluttet, inden tabulering er påbegyndt. Maskine-tabulering kan være mere hensigtsmæssig. Men hvis håndtabellen anses for at være effektiv, vil ordren, hvor forskellige sorter og tællinger ville blive foretaget, bestemmes forud for tabulering.

(3) En stor fordel ved maskindeling er, at den letter krydsklassificering. I storskala undersøgelser, hvor mange variabler skal korreleres eller krydseklassificeres, er maskindeling bedst foretrukket.

Det er derfor, at mekanisk tabulering anvendes i undersøgelser, der kræver mange sammenhænge mellem variabler. Men hvis det samlede antal respondenter er lille, kan en manuel tælling af dem i overensstemmelse med krydsklassificeringsprincippet være relativt økonomisk.

(4) Når der er mange kodede oplysninger og flere stempelkort, der kræves for hver enkelt sag, kan håndplacering være at foretrække.

(5) Hvis det er ønskeligt at holde dataene i en form klar til ny tabulering med relativt kort varsel, er stempelkort typisk nyttige. Mekanisk tabulering er nyttig til periodiske undersøgelser eller undersøgelser, hvor den samme type information skal indsamles med hyppige intervaller.

(6) Sorterings- og tællingsprocessen er mindre tilbøjelige til at frembringe fejl, hvis det gøres ved maskinen, end hvis det gøres manuelt. Fejl, selvfølgelig, kan og opstår i maskinskrivning, og når de gør det, er de ofte meget vanskelige at identificere og kontrollere.

Eventuelle fejl, der opdages ved kodning, redigering eller feltarbejdsfaser i undersøgelsen, kan indeholde maskinarbejde. Det er derfor ofte ønskeligt at fortsætte med håndtabellen sammen med feltarbejdet.

(7) Udgifter til tabulering er en vigtig bekymring for forskeren. Maskintabulation involverer ofte meget større omkostninger, da de fleste stempelkort, gebyrer for stansning og verificering, maskinafgifter for sorterings- og tabuleringsmaskiner og udgifter til ansættelse af specialiserede tjenester af specifikke typer af maskinoperatører ofte giver op til meget mere end de involverede i hånden tabulering.

(8) En anden vigtig overvejelse er tid. I mekanisk tabulering udføres tabuleringsarbejdet som sådan på meget kort tid, men de forberedende faser samt uddannelse, overvågning og mulig manglende tilgængelighed af visse typer maskiner på udlejning, der medfører forstyrrelse af arbejdet, kan alle uundgåeligt bidrage til spild af tid.

(9) Overvejelserne om bekvemmelighed kan næppe ignoreres. Hvis mekanisk tabulering kræver forsendelse af rå data til noget kontor langt væk fra projektkontoret, er der ulemper forbundet med pakning, transport mv.

(10) Endelig kan mængden af kommentarmateriale, der skal registreres og analyseres, også påvirke valget af tabuleringsmetoder. I nogle opinionsundersøgelser er de vigtige kommentarer fra informanter vigtige. Håndkortskortet, der bruges alene i håndbinding, kan give plads til sådanne bemærkninger eller kommentarer.

Maskiner, der håndterer tabuleringsarbejde, er af mange slags. Udviklingen på dette område har været ekstremt hurtig i de seneste år. Nogle maskiner sorterer og tæller simpelthen kort, andre sorterer, tæller og udskriver resultaterne, men andre er også rustet til at udføre mest komplicerede statistiske operationer eller beregninger.

Disse sidstnævnte maskiner er ekstremt komplekse, og de skal programmeres til en given operation af en specialist i linjen. A table is an exhibit of the numerical data systematically arranged in labelled columns (vertical) and rows (horizontal).

A simple or elementary table indicates simple counts of the frequencies with which the various categories in each set occur in the data, for example, the number of people in the sample who have attended high school but not passed, the number of people who have attended college but not graduated and so on. The table given below simply points out the frequencies of visits of fifty respondents to the cinema.

In research, we are often interested in finding out the correlation between two or more variables, eg, education and income and fertility, simple tables (illustrated above) showing frequency distribution of the respondents in respect of a single characteristic, eg, education or income or fertility, do not help us see the relationship among two or more variables.

The way to see the relationship is by preparing cross-tables or breakdown tables. Such tables make possible the grouping of cases that occur jointly in two or more categories, for example, tabulation of the number of cases that are high in education, low in income and have between 2 and 3 children, or the number of cases that are low in education, low in income and have between 4 and 5 children and so on. The most elementary form of cross-tabulation the students are familiar with is the college time-table.

Suppose a researcher wants to see the relationship among three variables, viz., occupation, income and fertility. He must employ a scheme of tabulation that will afford all possible combinations of the different categories of these three variables.

Cross- tabulation of the data on a hypothetical sample of 100 persons may be presented as under:

In the above table, we have indicated the number of children in rows. This variable of fertility has been divided into five categories, ie, no issue, 1 to 2 issues, 3 to 4, 5 to 6, 7 and above. So in the margin on the left hand, we have these 5 categories of fertility. We have indicated the income of 100 respondents in columns.

The income variable has been sub-divided into five categories, ie, below Rs.200, Rs.201-400, 401-600, 601-800, 801-1000. Thus, we have five columns corresponding to these categories.

Again since we have one more variable, ie, occupation to accommodate, the columns for income have each been sub-divided into two parts corresponding to the two categories in which the occupations have been divided, ie, white collar occupation and blue-collar occupation.

Thus, we have ten vertical columns, corresponding to income and occupation. The number of horizontal rows we have for the categories of the fertility variable is five. Thus, we have ten columns crossed by five rows making up the body of the table.

The intersection of the columns and rows has effected 50 (fifty) cells or boxes. Each of these boxes or cells houses a particular number of cases which are different from those in other cells either in respect of income or occupation, in fertility or in any two of these or in all of these. Let us read the table to get some idea as to what it represents.

Out of the total sample of 100 cases, there are 25 who have between 3 and 4 issues. Of these 25, reading from the left-hand side, 5 persons (with between 3 and 4 children) have income below Rs.200/- and are employed in white-collar occupations.

Two persons (with between 3 and 4 children) have income below Rs.200 and are employed in blue- collar occupations. Let us now take the second row. Of the total respondents, 38 have between 1 and 2 children. 11 (in the 7th cell) who have between 1 and 2 children are from the income group Rs.601 to Rs.800 and are employed in white-collar occupation.

This exercise should make it very clear that cross-tabulation is an essential step in the discovery of or testing of relationships among the variables contained in the data.

Tabulation is a means to present data in a summarized form in a way that facilitates the required statistical calculations. Data may, however, be presented in other ways, ie, instead of presenting them in a tabular form, the researcher may present them in the form of diagrams or graphs. Such diagrammatic or graphic representations do have the merit of being intelligible to a less knowledgeable reader.

But they suffer from the limitation that they are not so useful as a basis for statistical calculations. Let us now proceed to discuss the next operation, ie, the statistical analysis of data. Tabulation is a prerequisite or a first step in this direction.

Step # 4. Statistical Analysis of Data :

In research, we are not concerned with each individual respondent. The purpose of research is broader than this. That is, we wish to know much more than simply that a given respondent, for example, has extremely favourable attitude toward disarmament and that another respondent has moderately unfavorable attitudes toward the same issue. But this information is just not enough.

Social science researches are generally directed toward providing information about a particular population of respondents mostly via a sample. The sample of the totality might be asked certain questions related to the problem of our study, or be subjected to some form of observation.

Let us suppose that we have asked a sample of a thousand college students studying in 'post-graduate' classes a series of questions with a view to securing information about their study habits. Our research would thus be directed toward providing information about the 'population' of 'post-graduate' students of which the thousand cases is a sample.

As a necessary step to characterizing this 'population', we would have to describe or summarize the information about study habits that we have obtained on the sample thereof. Tabulation is just a part of this step. In addition, we must estimate the reliability of generalizations of the 'population' from the obtained data. Statistical methods are useful in fulfilling both these ends.