Korrelation: Foranstaltninger, Beregning og Metode

Efter at have læst denne artikel vil du lære om: - 1. Korrelationsforanstaltninger 2. Beregning af korrelation 3. Metoder.

Korrelationsforanstaltninger:

Karl Pearson korrelationskoefficient (individuelle observationer) :

For at beregne graden eller omfanget af korrelation og korrelationsretning er Karl Pearsons metode den mest tilfredsstillende.

Symbolisk er formuleringen som nedenfor:

hvor dx er afvigelsen for forskellige elementer af den første variabel fra et antaget gennemsnit og dy, svarer de tilsvarende afvigelser af den anden variabel fra det antagne gennemsnit og N til antallet af par af elementer.

Anvendelsen af formlen forklares med henvisning til følgende hypotetiske data:

Beregning af koefficient af korrelation i en kontinuerlig serie:

I tilfælde af en kontinuerlig serie klassificeres dataene i en tovejsfrekvensbord. Beregning af korrelationskoefficient i forhold til grupperede data er baseret på formodningen om, at hvert emne, der falder inden for et givet klasseinterval, antages at falde nøjagtigt til midtværdien af denne klasse.

Som en illustration skal vi beregne koefficienten eller korrelationen med hensyn til følgende data:

Formlen for beregning af korrelationskoefficient i dette tilfælde vil tage følgende form:

Den eneste ændring i ovenstående formel i sammenligning med den tidligere er indførelsen af f, der står for frekvens.

Anvendelsen af formlen til tabel 18.50 får vi:

Rangforskel Metode for korrelation:

Hvor den direkte måling af det fænomen, der er under undersøgelse, ikke er muligt, for eksempel af karakteristika som effektivitet, ærlighed, intelligens mv. Anvendes rangforskel metode til at finde ud af omfanget af korrelation.

Formlen til beregning af rangkorrelation er:

hvor R betegner koefficient for rangkorrelation mellem parrede rækker, D betegner forskellene mellem de parrede rækker og N står for antallet af par.

Vi skal ved hjælp af følgende eksempel illustrere anvendelsen af ovenstående formel:

Beregning af korrelationskoefficienten ved hjælp af differentieringsmetode :

(Når der er to eller flere elementer med samme værdi) :

Hvis der er mere end ét emne med samme værdi, gives der en fælles rang til sådanne emner. Denne rang er gennemsnittet af de rækker, som disse elementer ville have fået, hvis der var en lille forskel i deres værdier. Antag, at de fem studerendes karakter er henholdsvis 70, 66, 66, 65, 63.

Hvis disse mærker er arrangeret i faldende rækkefølge, vil figuren 70 modtage den første rang, 66 den anden rang, 65 den tredje og 63, den fjerde rang. Da de to elever i eksemplet har en lige score, er deres rang 2. Nu får de den gennemsnitlige rangering af de rækker, som disse studerende ville have sikret, hvis de adskiller sig lidt fra hinanden.

På denne forudsætning vil rangen af begge varer være 2 + 3/2. dvs. 2, 5 og rangen for næste punkt (65) ville være 4. Derfor ville koefficienten for rangkorrelation kræve en korrektion, fordi ovenstående formel [R = 1 6ΣD ² / N (N ² -1] er baseret på antagelse om, at rækken af forskellige ting er forskellige.

Hvor der er mere end et emne med samme værdi, tilføjes en korrektionsfaktor, 1/12 (t ^3- t) til værdien af zd ², hvor t. står for antal ting, hvis rækker er almindelige. Denne korrektionsfaktor tilføjes så mange gange som antallet af elementer med fælles rækker forekommer.

Dette forklares i følgende eksempel:

Analyse af data og fortolkning

Eksempel:

Beregn koefficienten for rangkorrelation fra følgende data:

I ovenstående datasæt af X-serien forekommer nummer 60 tre gange. Rangen af alle tre punkter er 5, som er gennemsnittet af 4, 5 og 6, de rækker, som disse elementer ville have sikret, hvis de adskiller sig lidt fra hinanden. Andre numre 68 i X-serien og 70 i Y-serien har fundet sted to gange. Deres rækker er henholdsvis 2, 5 og 1, 5.

Dermed:

Den modificerede formel for koefficient for rangkorrelation ville således være:

hvor n står for antallet af genstande gentaget. Med hensyn til ovenstående eksempel vil formlen være:

En forsigtighed vedrørende betydningen og implikationen af en korrelationskoefficient er retfærdig. Korrelationskoefficienten, som i sig selv er et meget nyttigt estimat af forholdet, bør ikke tages som et absolut bevis for sammenhæng mellem relevante variabler, så meget som dens fortolkning afhænger i høj grad af størrelsen af den valgte prøve til undersøgelsen som også om arten af de indsamlede data.

En tilsyneladende høj korrelationskoefficient, f.eks. 0, 80 (+), kan virkelig være ret vildledende, hvis standardfejlen, der tyder på stikprøveudsving, er relativt stor, eller at tage et modsat eksempel, kan en tilsyneladende lav koefficient på 0, 45 (+) foreslå at forholdet mellem variablerne måske kan ignoreres, men på virkelighedsplanet, kan denne indikation igen være fejlagtigt, da korrelationskoefficienten for visse variabler typisk kan være så lav, at den ovenfor anførte korrelationskoefficient, dvs. 0, 45 i sammenligning ville have brug for at betragtes som relativt ret høj for den pågældende klasse af data.

Men statistisk konvention bestemmer, at korrelationskoefficienten varierer fra 1 til 0, 7 (+) som en indikation af "høj" eller signifikant korrelation, der ligger mellem 0, 7 og 0, 4 (+) som væsentlig, at mellem 0, 4 og 0, 2 (+ ) så lavt og at under 0, 2 (+) som ubetydelig.

Det skal også understreges, at en høj korrelation mellem to variabler ikke i sig selv udgør et bevis på, at de er tilfældigt relaterede. En signifikant sammenhæng mellem variabler - for eksempel mellem indkomst og størrelse af familien eller størrelsen på en uddannelsesinstitution og de studerendes præstationer - giver næppe nogen indikation af et uformelt forhold mellem dem.

Antag, at vi skulle finde ud af, at højere indkomst er omvendt korreleret med antallet af problemer (børn), dvs. højere forældrenes indkomst, desto mindre er antallet af problemer (korrelationskoefficienten er 0, 8, der er statistisk ret høj) Vi vil være forkerte og uberettigede i at sige, at højere indkomst er årsagen til lavere fertilitet.

Det blev tidligere påpeget, at en årsagssammenhæng kun er berettiget, hvis der kan sikres tre slags bevis, samtidig variation, tidsordre og eliminering af enhver anden variabel som den afgørende betingelse for den hypoteseeffekt.

I det foreliggende tilfælde kan efterfølgende afledninger eventuelt trækkes i fuld overvejelse af den udprægede korrelation, der fremgår af variablerne af indkomst og antal børn:

(a) Man kan forårsage den anden,

b) Begge variabler kan være virkningerne af en anden årsag eller årsager, og

(c) Foreningen kan kun være en tilfældighed. Årsagssammenhænge kan naturligvis helt sikkert etableres i en eksperimentel situation.

Vi har overvejet dette, når det drejer sig om eksperimentelle designs. I samfundsvidenskab er det meget svært at oprette eksperimenter, så måden af studierne er ikke-eksperimentelle. Analytiske procedurer er dog udtænkt til at tegne afledninger om årsagssammenhæng i ikke-eksperimentelle undersøgelser.

Den sociale forsker er ganske ofte interesseret i at estimere graden af tilknytning mellem attributter, dvs. mellem variable, der defineres kvalitativt; for eksempel vil han måske fastslå graden af tilknytning mellem den seksuelle egenskab og den politiske præference eller mellem fødsel og holdning til et bestemt socialt spørgsmål.

Grundlæggende er forbindelsesproblemet en af korrelation, men foreningen mellem attributter kan ikke let blive acceptabel til matematisk behandling som i tilfælde af kvantitative kvantitative målinger. En måling af en sådan tilknytning blandt attributter er koefficienten for relativ forudsigelighed (RP), som faktisk er en kvalitativ korrelationskoefficient.