Korrelation: Betydning, Typer og dens Beregning

Efter at have læst denne artikel vil du lære om: - 1. Definitioner af Korrelation 2. Betydning af Korrelation 3. Behov 4. Types 5. Metoder til Computing.

Definitioner af korrelation:

Hvis ændringen i en variabel synes at ledsages af en ændring i den anden variabel, siges de to variabler korreleret, og denne indbyrdes afhængighed kaldes korrelation eller kovariation.

Kort sagt hedder tendensen af ​​samtidig variation mellem to variabler korrelation eller kovariation. For eksempel kan der eksistere et forhold mellem højder og vægte for en gruppe studerende, scorene af studerende i to forskellige fag forventes at have indbyrdes afhængighed eller forhold mellem dem.

For at måle graden af ​​forhold eller kovariation mellem to variabler er emnet for korrelationsanalyse. Korrelation betyder således forholdet eller "sammenhæng" eller korrespondance mellem to variabler.

I statistikker er korrelation en metode til at bestemme korrespondance eller proportionalitet mellem to serier af foranstaltninger (eller scoringer). For at sige det simpelthen indikerer korrelation forholdet mellem en variabel og den anden.

Betydning af korrelation:

For at måle graden af ​​association eller forhold mellem to variabler kvantitativt anvendes et relativitetsindeks og betegnes som koefficient for korrelation.

Koeffektivitet af korrelation er et numerisk indeks, der fortæller os, i hvilket omfang de to variabler er relaterede og i hvilket omfang variationerne i en variabel ændres med variationerne i den anden. Koeffektiviteten er altid symboliseret enten ved r eller p (Rho).

Begrebet 'r' betegnes som korrelationskoordinering for produktmoment eller Karl Pearson's korrelationskoefficient. Symbolet 'ρ' (Rho) er kendt som Rank Difference Correlation Coefficient eller Spearman's Rank Correlation Coefficient.

Størrelsen af ​​' r ' angiver mængden (eller graden eller omfanget) af korrelationsskibet mellem to variabler. Hvis korrelationen er positiv er værdien af ​​' r ' + ve, og hvis korrelationen er negativ, er værdien af ​​V negativ. Således angiver tegn på koefficienten slags forhold. Værdien af ​​V varierer fra +1 til -1.

Korrelation kan variere mellem perfekt positiv korrelation og perfekt negativ korrelation. Den øverste del af skalaen angiver perfekt positiv korrelation, og den vil begynde fra +1, og så vil den passere gennem nul, hvilket indikerer hele mangel på korrelation.

Bunden af ​​skalaen slutter ved -1, og den vil indikere perfekt negativ korrelation. Således tilvejebringes numerisk måling af korrelationen af ​​skalaen, som løber fra +1 til -1.

[NB-Korrelationskoefficienten er et tal og ikke en procentdel. Det er normalt afrundet op til to decimaler].

Behov for korrelation:

Korrelation giver mening til en konstruktion. Korrelationsanalyse er afgørende for grundlæggende psyko-pædagogisk forskning. Faktisk er størstedelen af ​​den grundlæggende og anvendte psykologiske forskning korrelationsmæssig.

Korrelationsanalyse er påkrævet for:

(i) At finde karakteristika ved psykologiske og pædagogiske tests (pålidelighed, validitet, elementanalyse osv.).

(ii) Testing af, om visse data er i overensstemmelse med hypotesen.

(iii) Forudsiger en variabel på grundlag af den anden (e) kendskab.

(iv) Opbygning af psykologiske og uddannelsesmæssige modeller og teorier.

(v) Gruppering af variabler / foranstaltninger til parsimonisk fortolkning af data.

(vi) Gennemførelse af multivariate statistiske tests (Hoteling's T 2, MANOVA, MANCOVA, Discriminant analyse, Factor Analysis).

(vii) Isolerende indflydelse af variabler.

Typer af korrelation:

I en bivariatfordeling kan korrelationen være:

1. Positiv, negativ og nul korrelation og

2. Lineær eller krøllet (ikke-lineær).

1. Positiv, negativ eller nul korrelation:

Når stigningen i en variabel (X) efterfølges af en tilsvarende stigning i den anden variabel (Y); korrelationen siges at være positiv korrelation. De positive korrelationer spænder fra 0 til +1; den øvre grænse, dvs. +1 er den perfekte positive koefficient for korrelation.

Den perfekte positive korrelation angiver, at for hver enheds stigning i en variabel er der en proportional stigning i den anden. For eksempel "Varme" og "Temperatur" har en perfekt positiv korrelation.

Hvis derimod en stigning i en variabel (X) resulterer i et tilsvarende fald i den anden variabel (Y), korrelationen siges at være negativ korrelation.

Den negative korrelation spænder fra 0 til - 1; den nederste grænse giver den perfekte negative korrelation. Den perfekte negative korrelation indikerer, at for hver enheds stigning i en variabel er der et forholdsmæssigt fald i den anden.

Nul korrelation betyder intet forhold mellem de to variabler X og Y; dvs. ændringen i en variabel (X) er ikke forbundet med ændringen i den anden variabel (Y). For eksempel kropsvægt og intelligens, sko størrelse og månedsløn; etc. Nulkorrelationen er midtpunktet for området - 1 til + 1.

2. Lineær eller krøllet korrelation:

Linjær korrelation er forholdet mellem forandring mellem de to variabler enten i samme retning eller modsat retning, og den grafiske repræsentation af den ene variabel med hensyn til anden variabel er lige linje.

Overvej en anden situation. For det første øges med den anden variabel den anden variabel forholdsmæssigt op til et tidspunkt; efter at med en stigning i den første variabel begynder den anden variabel at falde.

Den grafiske repræsentation af de to variabler vil være en buet linje. Et sådant forhold mellem de to variabler betegnes som den krøllede korrelation.

Metoder til Computing Co-Effective of Correlation:

For at lette ugrupperede data om bivariatfordeling anvendes følgende tre metoder til at beregne værdien af ​​koefficienten for korrelation:

1. Scatterdiagrammetode.

2. Pearsons produktmoment Co-effektiv af korrelation.

3. Spearmans Rank Order Coefficient of Correlation.

1. Scatterdiagrammetode:

Scatterdiagram eller punktdiagram er en grafisk enhed til at trække bestemte konklusioner om korrelationen mellem to variabler.

Ved udarbejdelse af et scatterdiagram tegnes de observerede observationspar af punkter på et grafpapir i et todimensionelt rum ved at tage målingerne på variabel X langs den vandrette akse og den på variabel Y langs den vertikale akse.

Placeringen af ​​disse prikker i grafen afslører ændringen i variablen, om de ændrer sig i samme eller i modsatte retninger. Det er en meget nem, enkel men grov metode til beregning af korrelation.

Frekvenserne eller punkterne er tegnet på en graf ved at tage passende skalaer for de to serier. De plottede punkter vil have tendens til at koncentrere sig i et bånd af større eller mindre bredde i overensstemmelse med deres grad. 'Den bedst egnede linje' er tegnet med en frihånd, og dens retning angiver karakteren af ​​korrelation. Scatterdiagrammer, som et eksempel, der viser forskellige grader af korrelation, er vist i figur 5.1 og figur 5.2.

Hvis linjen går opad, og denne opadgående bevægelse er fra venstre mod højre, vil den vise positiv korrelation. Ligeledes, hvis linjerne bevæger sig nedad og retningen er fra venstre til højre, vil den vise negativ korrelation.

Graden af ​​hældning vil angive graden af ​​korrelation. Hvis de plottede punkter er spredt bredt, vil det vise mangel på korrelation. Denne metode beskriver blot "faktum", at korrelationen er positiv eller negativ.

2. Pearsons produktmoment Co-effektiv af korrelation:

Korrelationskoefficienten, r, kaldes ofte "Pearson r" efter professor Karl Pearson, der udviklede produkt-moment-metoden efter det tidligere arbejde i Gallon og Bravais.

Korrelationskoefficient som forhold:

Korrelationsprodukt-momentkoefficienten kan tænkes i det væsentlige som det forhold, der udtrykker den grad, i hvilken ændringer i en variabel ledsages af eller afhængige af ændringer i en anden variabel.

Som en illustration overveje følgende enkle eksempel, der giver de parrede højder og vægte af fem universitetsstuderende:

Den gennemsnitlige højde er 69 inches, den gennemsnitlige vægt 170 pounds, og o er 2, 24 inches og o er henholdsvis 13, 69 pounds. I kolonnen (4) er afvigelsen (x) for hver elevs højde fra den gennemsnitlige højde og i kolonne (5) afvigelsen (y) for hver elevs vægt fra middelvægten angivet. Produktet af disse parrede afvigelser (xy) i kolonne (6) er et mål for aftalen mellem individuelle højder og vægte. Jo større summen af ​​xy-søjlen jo højere graden af ​​korrespondance er. I ovenstående eksempel er værdien af ​​Σxy / N 55/5 eller 11. Hvor perfekt aftale, dvs. r = ± 1.00, overstiger værdien af ​​Σ xy / N maksimumsgrænsen.

Således ville Σ xy / N ikke give et passende forhold til forholdet mellem x og y. Årsagen er, at et sådant gennemsnit ikke er en stabil foranstaltning, da den ikke er uafhængig af de enheder, hvor højden og vægten er udtrykt.

Som følge heraf vil dette forhold variere, hvis centimeter og kilo anvendes i stedet for tommer og pund. En måde at undgå ulejligheden på - en ting om forskelle i enheder er at udtrykke hver afvigelse som en σ-score eller standard score eller Z-score, dvs. at dividere hver x og y med egen σ.

Hver x- og y-afvigelse udtrykkes derefter som et forhold, og er et rent tal uafhængigt af testenhederne. Summen af ​​produkterne i σ-score-søjlen (9) divideret med N giver et forhold, som er et stabilt udtryk for forholdet. Dette forhold er korrelationskoefficienten "produkt-moment". I vores eksempel viser dens værdi på .36 en forholdsvis høj positiv sammenhæng mellem højde og vægt i denne lille prøve.

Den studerende skal bemærke, at vores forhold eller koefficient er simpelthen det gennemsnitlige produkt af σ score af tilsvarende X og Y målinger dvs.

Nature of r xy :

(i) r xy er et produkt øjeblik r

(ii) r xy er et forhold, = r xy .

(iii) r xy kan være + ve eller - ve bundet af grænser - 1, 00 til + 1, 00.

(iv) r xy kan betragtes som et aritmetisk gennemsnit (r xy er middelværdien af ​​standard score produkter).

(v) r xy påvirkes ikke af nogen lineær transformation af scoringer på enten X eller Y eller begge dele.

(vi) Når variabler er i standard scoreformularen, giver r et mål for den gennemsnitlige ændring i en variabel, der er forbundet med ændringen af ​​en enhed, den anden variabel.

(vii) r xy = √b yx b xy hvor b yx = regressionskoefficienten Y på X, b xy = regressionskoefficienten X på Y. r xy = kvadratroden af ​​regressionslinjens skråninger.

(Viii) r xy er ikke påvirket af størrelsen af ​​midler (scoringer er altid relative).

(Ix) r xy kan ikke beregnes, hvis en af ​​variablerne ikke har nogen varians S 2 x eller S 2 Y = 0

(x) r xy på 60 betyder samme størrelsesforhold som r xy = - .60. Tegnet fortæller om retningen af ​​forholdet og størrelsen af ​​forholdets styrke.

(xi) df for r xy er N - 2, som bruges til at teste signifikansen af ​​r xy . Test af signifikansen af ​​r er at teste signifikansen af ​​regression. Regressionslinjen involverer hældning og aflytning, derfor går 2 df tabt. Så når N = 2, r xy er enten + 1, 00 eller - 1, 00 da der ikke er nogen frihed til prøvetagningsvariation i den numeriske værdi af r.

A. Beregning af r xy (ugrupperede data) :

Her er ved hjælp af formlen til beregning af r afhængig af "hvor fra afvigelserne tages". I forskellige situationer kan afvigelser enten ske fra det faktiske middel eller fra nul eller fra AM Type formel, der er bekvemt anvendt til beregning af koefficientkorrelation afhænger af middelværdi (enten i fraktion eller hel).

(i) Formlen for r, når afvigelser er taget fra middel til de to fordelinger X og Y.

hvor r xy = Korrelation mellem X og Y

x = afvigelse af en X-score fra gennemsnittet i testen X

y = afvigelse af tilsvarende Y-score fra middelværdien i test Y.

Σxy = Summen af ​​alle produkter af afvigelser (X og Y)

σ x og σ y = Standardafvigelser for fordelingen af ​​X og Y score.

hvor x og y er afvigelser fra det egentlige middel, og Σx 2 og Σy 2 er summene af kvadratiske afvigelser i x og y taget fra de to midler.

Denne formel foretrækkes:

jeg. Når gennemsnitsværdier for begge variabler ikke er i brøkdel.

ii. Hvornår for at finde ud af sammenhængen mellem korte, ugrupperede serier (siger femogtyve tilfælde eller så).

iii. Når afvigelser skal tages fra de faktiske fordele af de to distributioner.

De nødvendige trin er illustreret i tabel 5.1. De er opregnet her:

Trin 1:

Angiv de parrede X- og Y-score i parallelle kolonner, og sørg for, at de tilsvarende scoringer er sammen.

Trin 2:

Bestem de to midler M x og M y . I tabel 5.1 er disse henholdsvis 7, 5 og 8, 0.

Trin 3:

Bestem for hvert par scores de to afvigelser x og y. Tjek dem ved at finde algebraiske summer, som skal være nul.

Trin 4:

Firkant alle afvigelser, og list i to kolonner. Dette er med det formål at beregne σ x og σ y .

Trin 5:

Summen kvadraterne af afvigelserne for at opnå Σx 2 og Σy 2 Find xy produkt og sum disse for Σxy.

Trin 6:

Fra disse værdier beregner σ x og σ y .

En alternativ og kortere løsning:

Der er en alternativ og kortere rute, som udelader beregningen af ​​σ x og σ y, hvis de ikke er nødvendige til noget andet formål.

Anvendelse af formel (28):

(ii) Beregning af r xy fra originale scoringer eller rå scoringer:

Det er en anden procedure med ugrupperede data, som ikke kræver brug af afvigelser. Det handler helt med originale scoringer. Formlen kan se forbyde, men er virkelig nem at anvende.

Denne formel foretrækkes:

jeg. Hvornår beregnes r fra direkte rå score.

ii. Original score ft., Når data er små ugrupperede.

iii. Når middelværdier er i brøkdele.

iv. Når god beregningsmaskine er tilgængelig.

X og Y er originale scores i variabler X og Y. Andre symboler fortæller hvad der er gjort med dem.

Vi følger trinene, der er illustreret i tabel 5.2:

Trin 1:

Firkant alle X og Y målinger.

Trin 2:

Find XY-produktet for hvert par scoringer.

Trin 3:

Summen X, Y, X 2, Y 2 og XY.

Trin 4:

Anvend formel (29):

(ii) Beregning af r xy, når afvigelser er taget fra antaget middel:

Formlen (28) er nyttig til beregning af r direkte fra to ugrupperede serier af scoringer, men den har ulemperne, da den kræver "lang metode" af beregningsorganer og σ'er . Afvigelserne x og y, når de tages fra egentlige midler, er som regel decimaler, og multiplikationen og kvadrering af disse værdier er ofte en kedelig opgave.

Af denne grund - selv når man arbejder med korte ugrupperede serier - er det ofte lettere at antage midler, beregne afvigelser fra disse AM'er og anvende formlen (30).

Denne formel foretrækkes:

jeg. Når egentlige midler normalt er decimaler, og multiplikationen og kvadrering af disse værdier ofte er en kedelig opgave.

ii. Når afvigelser er taget fra AM's.

iii. Når vi skal undgå fraktioner.

Trinnene i databehandling r kan beskrives som følger:

Trin 1:

Find middelværdien af ​​Test 1 (X) og middelværdien af ​​Test 2 (Y). Middelene som vist i tabel 5.3 M X = 62, 5 og M Y = 30, 4.

Trin 2:

Vælg AM af både X og Y, dvs AM X som 60, 0 og AM Y som 30, 0.

Trin 3:

Find afvigelsen for hver score på Test 1 fra sin AM, 60, 0, og indtast den i kolonne x '. Find derefter afvigelsen for hver score i Test 2 fra dens AM, 30, 0, og indtast den i kolonne y '.

Trin 4:

Firkant alle x 'og alle de' og indtast disse firkanter i henholdsvis kolonne x ' 2 og y' 2 . Samlet disse kolonner for at opnå Σx ' 2 og Σy' 2 .

Trin 5:

Multiplicér x 'og y', og indtast disse produkter (under behørig hensyntagen til tegn) i x'y'-kolonnen. Total x'y 'kolonne under hensyntagen til tegn, for at få Σx'y'.

Trin 6:

Korrektionerne, C x og C y, findes ved at trække AM X fra M x og AM y fra M y . Derefter blev C x fundet som 2, 5 (62, 5 - 60, 0) og C y som .4 (30, 4 - 30, 0).

Trin 7:

Erstatning for Σx'y ', 334, for Σx' 2, 670 og for Σy ' 2, 285 i formel (30), som vist i tabel 5.3, og løse for r xy.

Egenskaber af r :

1. Værdien af ​​koefficienten for korrelation r forbliver uændret, når en konstant tilføjes til en eller begge variabler:

For at observere effekten på koefficientkorrelationen r, når en konstant sættes til en eller begge variablerne, betragter vi et eksempel.

Nu tilføjer vi en score på 10 til hver score i X og 20 til hver score af Y og repræsenterer disse scoringer henholdsvis X 'og Y'.

Beregningerne til beregning r for originale og nye par observationer er angivet i tabel 5.4:

Ved anvendelse af formel (29) vil koefficienten for korrelation af original score være:

Den samme formel til nye scoringer kan skrives som:

Således bemærker vi, at værdien af ​​korrelationskoefficientens koefficient forbliver uændret, når en konstant sættes til en eller begge variabler.

2. Værdien af ​​koefficienten for korrelation r forbliver uændret, når en konstant trækkes fra en eller begge variabler:

Studerende kan undersøge dette ved at tage et eksempel. Når hver score af en eller begge variabler subtraheres med en konstant, forbliver værdien af ​​korrelationskoefficient r ligeledes uændret.

3. Værdien af ​​koefficienten for korrelation r forbliver uændret, når et eller begge sæt af variabelværdier multipliceres med en vis konstant:

For at observere virkningen af ​​at multiplicere variablerne med en vis konstant på værdien af ​​r multiplicerer vi vilkårligt de oprindelige scoringer af første og andet sæt i det foregående eksempel med henholdsvis 10 og 20.

R'en mellem X 'og Y' kan derefter beregnes som under:

Sammenhængen mellem koefficienten mellem X 'og Y' vil være:

Således bemærker vi, at værdien af ​​korrelationskoefficientens koefficient forbliver uændret, når en konstant multipliceres med et eller begge sæt variabelværdier.

4. Værdien af ​​r forbliver uændret, selvom et eller begge sæt af variabelværdier er opdelt med en vis konstant:

Studerende kan undersøge dette ved at tage et eksempel.

B. Korrelationskoefficient i grupperede data :

Når antallet af målinger (N) på to variabler X og Y er stort, endog moderat i størrelse, og når ingen beregningsmaskine er tilgængelig, er den sædvanlige procedure at gruppere data i både X og Y og for at danne et scatterdiagram eller korrelationsdiagram, der også kaldes tovejsfrekvensfordeling eller bivariatfrekvensfordeling.

Valget af klasseintervallets størrelse og grænser for intervaller følger meget de samme regler som tidligere. For at klarlægge ideen betragter vi en bivariate data, der vedrører de score, der opnås af en klasse på 20 studerende i fysik og matematik eksamen.

Forberedelse af et scatterdiagram:

Ved opstilling af en dobbelt gruppe af data udarbejdes en tabel med kolonner og rækker. Her klassificerer vi hvert par variabler samtidigt i de to klasser, en repræsenterer score i fysik (X) og den anden i matematik (Y) som vist i tabel 5.6.

Scorerne på 20 studerende i både fysik (X) og matematik (Y) er vist i nedenstående tabel:

Vi kan nemt forberede en bivariat frekvensfordelingsbord ved at sætte tal for hvert par scoringer. Opførelsen af ​​et scattergram er ret simpelt. Vi skal forberede et bord som vist i diagrammet ovenfor.

Langs venstrefløjen lægges klasseintervallerne for X-fordeling af fra bund til top (i stigende rækkefølge). Langs toppen af ​​diagrammet aflejres c.i's af Y-fordeling fra venstre mod højre (i stigende rækkefølge).

Hvert par scoringer (både i X og Y) er repræsenteret gennem en tally i den respektive celle. Nr. 1 studerende har sikret 32 ​​i Fysik (X) og 25 i Matematik (Y). Hans score på 32 i (X) placerer ham i den sidste række og 25 i (Y) placerer ham i den anden kolonne. Så for paret af scoringer (32, 25) vil en tally blive markeret i anden søjle i 5. række.

På lignende måde, i tilfælde af nr. 2 studerende, for scoringer (34, 41), skal vi sætte en tally i 4. søjle i 5. række. Ligeledes vil 20 tallet blive sat i de respektive rækker og kolonner. (Rækkene repræsenterer X-scorerne, og kolonnerne repræsenterer Y-scorerne).

Langs den højre margin tabuleres fx-søjlen, antallet af sager i hver ci, i X-fordeling og langs bunden af ​​diagrammet i fy- rækken er antallet af sager i hver ci af Y-fordeling tabuleret.

Summen af f x søjlen er 20, og summen af f y rækken er også 20. Det er faktisk en bi-variabel fordeling, fordi den repræsenterer fællesfordeling af to variabler. Scattergrammet er så et "korrelationstabell".

Beregning af r fra en korrelationstabel:

Følgende skitsering af de trin, der skal følges ved beregning af r, forstås bedst, hvis den studerende konstant vil henvise til tabel 5.7, som han læser gennem hvert trin:

Trin 1:

Konstruer et scattergram for de to variabler, der skal korreleres, og ud fra det udarbejde en korrelationstabel.

Trin 2:

Tæl frekvenserne for hver ci for distribution - X og skriv den i f x kolonnen. Tæl frekvenserne for hver ci for distribution - Y og udfyld f y rækken.

Trin 3:

Antag et middel for X-fordeling og markér ci i dobbelt linjer. I den givne korrelationstabel, lad os antage gennemsnittet ved ci, 40-49 og sætte dobbelt linjer som vist i tabellen. Afvigelserne over AM-linjen vil være (+ ve), og afvigelserne under den bliver (- ve).

Afvigelsen mod AM-linjen, dvs. mod ci, hvor vi antog middelværdien, er markeret 0 (nul) og over det er d' erne angivet som +1, +2. 13 og under det er d bemærket at være - 1. Nu er dx kolonnen fyldt op. Multiplicér derefter f x . og dx i hver række for at få fdx . Multiplicer dx og fdx for hver række for at få fdx 2 .

[Bemærk: Ved beregning af SD'en i den antagne gennemsnitlige metode antog vi et middel, der markerede d's og computeren fd og fd 2 . Her følger også samme procedure.]

Trin 4:

Antag samme procedure som i trin 3 og beregne dy, fdy og fdy 2 . For fordelingen -J, lad os antage gennemsnittet i ci 20-29 og sætte dobbelt linjer for at markere søjlen som vist i tabellen. Afvigelserne til venstre for denne kolonne vil være negative og rigtige være positive.

Således er d for den kolonne, hvor der antages at antages, markeret 0 (nul), og d til venstre er markeret - 1 og d ' s til højre er markeret +1, +2 og +3. Nu dy kolonne er fyldt op. Multiplicer værdierne for fy og dy for hver kolonne for at få fdy . Multiplicér værdierne dy og fdy til hver kolonne for at få fdy 2 .

Trin 5:

Da denne fase er en vigtig, skal vi markere omhyggeligt til beregningen af dy for forskellige ci's for distribution X og dx for forskellige ci's for distribution -Y.

dy for forskellige distributionskilder - X: I første række er 1 f under søjlen 20-29, hvis dy er 0 (Se til bunden. Dy entry i denne række er 0). Igen er 1 f under søjlen 40-49, hvis dy er + 2. Så dy for den første række = (1 x 0) + (1 x 2) = + 2.

I anden række finder vi det:

1 f er under kolonnen 40-49 hvis dy er + 2 og

2 f s er under kolonnen, 50-59 hvis dy er + 3 hver.

dy for 2. række = (1 x 2) + (2 X 3) = 8.

I den tredje række,

2 f s er under søjlen, 20-29 hvis dy er 0 hver,

2 f s er under søjlen 40-49 hvis dy er +2 hver og 1 f er under søjlen 50-59, hvis dy er +3.

Så dy for tredje række = (2 x 0) + (2 x 2) + (1 X 3) = 7.

I den fjerde række,

3 f s er under kolonnen, 20-29 hvis dy er 0 hver,

2 f s er under kolonnen, 30-39 hvis dy er +1 hver og 1 f er under søjlen 50-59, hvis dy er + 3,

dy for den fjerde række = (3 x 0) + (2 x 1) + (1 x 3) = 5.

Ligeledes i 5. række

dy for 5. række = (2 x - 1) + (1 x 0) + (1 x 2) = 0

dx for forskellige ci, 'v for distributionen - Y:

I den første kolonne

2 f s er imod rækken, 30-39 hvis dx er - 1.

dx af 1. kolonne = (2 x - 1) = - 2

I den anden kolonne

1 f er imod ci, 70-79 hvis dx er +3,

2 f s er imod ci, 50-59 hvis dx er +1 hver,

3 f s er imod ci, 40-49 hvis dx er 0 hver,

1 f er imod ci, 30-39 hvis dx er - 1.

dx for 2. kolonne = (1 x 3) + (2 X 1) + (3 X 0) + (1 x - 1) = 4. I den tredje kolonne,

dx for 3. kolonne = 2 × 0 = 0

I den fjerde kolonne,

dx for den fjerde kolonne = (1 x 3) + (1 x 2) + (2 x 1) + (1 x - 1) = 6.

I den femte kolonne

dx for 5. kolonne = (2 x 2) + (1 x 1) + (1 X 0) = 5.

Trin 6:

Nu beregner du dx.dy hver distributionsrække - X ved at multiplicere dx- indtastningerne for hver række ved dy- poster i hver række. Derefter beregnes dx.dy for hver fordelingskolonne - Y ved at multiplicere dyposter i hver kolonne ved hjælp af dx- posterne i hver kolonne.

Trin 7:

Tag nu den algebraiske sum af værdierne for kolonnerne fdx, fdx 2, dy og dx.dy (til distribution - X). Tag den algebraiske sum af værdierne af rækkerne fdy, fdy 2, dx og dx.dy (til distribution - Y)

Trin 8:

Σ. dx.dy af X-distribution = Σ dx.dy for Y-distribution

Σ fdx = summen af dx række (dvs. Σ dx )

Σ fdy = total dy- kolonne (dvs. Σ dy )

Trin 9:

Symbolernes værdier som fundet

Σ fdx = 13, Σ fd 2 x = 39

Σ fdy = 22, Σ fd 2 y = 60

Σ dx.dy = 29 og N = 20.

For at beregne korrelationskoefficienten i en korrelationstabel kan følgende formel anvendes:

Vi kan markere det i nævneren af ​​formel (31), anvender vi formlen for en x og en y med undtagelse af nej jeg er. Vi bemærker her, at C x, C y, σ x, o v er alle udtrykt i enheder af klasseintervaller (dvs. i enhed i). Således, når computere σ x og σ y anvendes, er ingen I'er. Dette er ønskeligt, fordi alle produktafvigelserne dvs. Σ dx.dy er i intervall enheder.

Således beregner vi:

Fortolkning af korrelationskoefficienten:

Kun beregning af korrelation har ingen betydning før og medmindre vi bestemmer, hvor stort skal koefficienten være for at være signifikant, og hvad fortæller korrelation os om dataene? Hvad mener vi med den opnåede værdi af korrelationskoefficient?

Misfortolkning af korrelationskoefficienten:

Nogle gange fejler vi værdien af ​​korrelationskoefficienten og etablerer årsag og virkning forholdet, dvs. en variabel forårsager variationen i den anden variabel. Faktisk kan vi ikke fortolke på denne måde, medmindre vi har en god logisk base.

Korrelationskoefficienten giver os en kvantitativ bestemmelse af graden af ​​forholdet mellem to variabler X og Y, ikke oplysninger om arten af ​​tilknytningen mellem de to variabler. Årsagssammenhæng indebærer en uforanderlig sekvens - A fører altid til B, mens korrelation simpelthen er et mål for gensidig tilknytning mellem to variabler.

For eksempel kan der være en høj sammenhæng mellem maladjustment og angst:

Men på baggrund af høj korrelation kan vi ikke sige, at fejljustering forårsager angst. Det kan være muligt, at høj angst er årsagen til fejlkorrektion. Dette viser, at fejljustering og angst er indbyrdes forbundne variabler. Overvej et andet eksempel.

Der er en høj sammenhæng mellem egnethed i et fag i skolen og præstationen i emnet. I slutningen af ​​skolens undersøgelser vil dette afspejle årsagsforhold? Det kan eller måske ikke.

Aptitude i studiet af emnet medfører helt klart variation i opnåelsen af ​​emnet, men høj præstation af den studerende i emnet er ikke kun resultatet af den høje egnethed; det kan skyldes de andre variabler også.

Når tolkningen af ​​korrelationskoeffektivitetens størrelse med hensyn til årsag og virkning er relevant, er det derfor hensigtsmæssigt, hvis og kun, hvis de undersøgte variabler giver en logisk basis for en sådan fortolkning.

Faktorer der påvirker størrelsen af ​​korrelationskoefficienten:

Vi bør også være opmærksomme på følgende faktorer, der påvirker størrelsen af ​​korrelationskoefficienten og kan føre til fejlfortolkning:

1. Størrelsen af ​​"r" er meget afhængig af variabiliteten af ​​målte værdier i den korrelerede prøve. Jo større variabilitet jo højere vil være korrelationen, alt andet er ens.

2. Størrelsen af ​​'r' ændres, når en efterforsker vælger en ekstrem gruppe af fag for at sammenligne disse grupper med hensyn til visse opgaver. "R" opnået fra de kombinerede data af ekstreme grupper ville være større end "r" opnået fra en tilfældig prøve af den samme gruppe.

3. Tilføjelse eller tab af de ekstreme tilfælde fra gruppen kan føre til ændring på størrelsen af ​​"r". Tilføjelsen af ​​det ekstreme tilfælde kan øge størrelsen af ​​korrelationen, mens faldet af de ekstreme tilfælde vil sænke værdien af ​​"r".

Anvendelse af produkt øjeblik r:

Korrelation er en af ​​de mest anvendte analytiske procedurer inden for uddannelsesmæssig og psykologisk måling og evaluering. Det er nyttigt i:

jeg. Beskrive graden af ​​korrespondance (eller forhold) mellem to variabler.

ii. Forudsigelse af en variabel - den afhængige variabel på basis af uafhængig variabel.

iii. Validering af en test; fx en gruppe intelligens test.

iv. Bestemmelse af objektiviteten af ​​en test.

v. Uddannelses- og erhvervsvejledning og beslutningstagning.

vi. Bestemmelse af testens pålidelighed og gyldighed.

vii. Bestemmelse af rollen som forskellige korrelerer med en vis evne.

viii. Faktoranalyse teknik til bestemmelse af faktorbelastningen af ​​de underliggende variabler i menneskelige evner.

Forudsætninger for produkt øjeblik r :

1. Normal fordeling:

De variabler, som vi ønsker at beregne korrelationen til, skal normalt fordeles. Antagelsen kan lægges fra stikprøveudtagning.

2. Linearitet:

Produkt-moment korrelation kan vises i lige linje, der er kendt som lineær korrelation.

3. Kontinuerlig serie:

Måling af variabler på kontinuerlige serier.

4. Homoscedasticitet:

Det skal opfylde betingelsen om homoscedasticitet (lige variation).

3. Spearmans Rank Korrelationskoefficient:

Der er nogle situationer i Uddannelse og Psykologi, hvor objekterne eller enkeltpersoner kan placeres og arrangeres efter fortjeneste eller færdigheder på to variabler, og når disse 2 sæt rækker er covary eller har enighed mellem dem, måler vi graden af ​​forhold ved rangkorrelation .

Igen er der problemer, hvor forholdet mellem de foretagne målinger ikke er lineært og ikke kan beskrives ved produkt-øjeblikket r.

Eksempelvis er evalueringen af ​​en gruppe studerende på grundlag af ledelsesevne, bestilling af kvinder i en skønhedskonkurrence, elever placeret i præferenceordning, eller billederne kan rangeres efter deres æstetiske værdier. Medarbejdere kan bestilles af vejledere på jobpræstationer.

Skolebørn kan blive klassificeret af lærere om social tilpasning. I sådanne tilfælde kan objekter eller enkeltpersoner rangeres og arrangeres efter fortjeneste eller færdigheder på to variabler. Spearman har udviklet en formel kaldet Rank Correlation Coefficient for at måle omfanget eller graden af ​​korrelation mellem 2 sæt af rækker.

Denne korrelationskoefficient er betegnet med græsk bogstav ρ (kaldet Rho) og er angivet som:

hvor, ρ = rho = Spearmans Rank Correlation Coefficient

D = Forskel mellem parrede rækker (i hvert tilfælde)

N = Samlet antal emner / personer rangeret.

Karakteristik af Rho (ρ):

1. I rangkorrelationskoefficienten er observationerne eller målingerne af den bivariate variabel baseret på ordinært skala i form af rækker.

2. Størrelsen af ​​koefficienten påvirkes direkte af størrelsen af ​​rangforskellene.

(en) Hvis rækkerne er de samme for begge tests, vil hver rangforskel være nul, og i sidste ende bliver D 2 nul. Det betyder, at korrelationen er perfekt; dvs. 1, 00.

(B) Hvis rangforskellene er meget store, og brøkdelen er større end en, så vil korrelationen være negativ.

Forudsætninger for Rho (ρ):

jeg. N er lille, eller dataene er meget skævt.

ii. De er fri eller uafhængige af nogle karakteristika ved befolkningsfordelingen.

iii. I mange situationer anvendes der metoder, hvor kvantitative målinger ikke er tilgængelige.

iv. Selv om kvantitative målinger er tilgængelige, erstattes rækker for at reducere aritmetisk arbejdskraft.

v. Sådanne tests beskrives som ikke parametriske.

vi. I sådanne tilfælde består dataene af sæt ordinære tal, 1., 2., 3. .... Disse erstattes af kardinaltallene 1, 2, 3, ........., N med henblik på beregning. Substitutionen af ​​kardinale tal for ordinære tal forudsætter altid lige store intervaller.

I. Beregning af p fra testresultater:

Eksempel 1:

Følgende data giver henholdsvis 5 studerende i matematik og generel videnskab:

Beregn korrelationen mellem de to serier af testresultater ved Rank Difference Method.

Værdien af ​​korrelationskoefficient mellem scorer i matematik og generel videnskab er positiv og moderat.

Fremgangsmåde til beregning af Spearmans Co-efficacy of Correlation:

Trin 1:

Skriv eleverne, navnene eller deres serienumre i kolonne 1.

Trin 2:

I kolonne 2 og 3 skrives scoringer af hver elev eller individ i prøve I og II.

Trin 3:

Tag et sæt af søjle 2 og tildelt en rang på 1 til den højeste score, hvilket er 9, en rangering på 2 til den næste højeste score, som er 8 og så videre, indtil den laveste score får en rang svarende til N; som er 5.

Trin 4:

Tag II sæt af scoringer i kolonne 3, og giv rangen 1 til højeste score. I det andet sæt er den højeste score 10; dermed opnå rang 1. Den næste højeste score for B-studerende er 8; derfor er hans rang 2. Rækkefølgen for elev C er 3, rangen af ​​E er 4, og rangen af ​​D er 5.

Trin 5:

Beregn forskellen mellem rækker for hver elev (kolonne 6).

Trin 6:

Tjek summen af ​​de forskelle, der er registreret i kolonne 6. Det er altid nul.

Trin 7:

Hver forskel i rækker i kolonne 6 er kvadreret og optaget i kolonne 7. Få summen ΣD 2 .

Trin 8:

Sæt værdien af ​​N og 2D 2 i formlen af ​​Spearmans coefficient for korrelation.

2. Beregning fra rankingsdata:

Eksempel 2:

I en talekonkurrence Prof. Mehrotra og Prof. Shukla dømte 10 elever. Deres vurderinger var i rækker, som er præsenteret nedenfor. Bestem, i hvilket omfang deres domme var enige.

Værdien af ​​koefficient af korrelation er + .83. Dette viser en høj grad af aftale mellem de to dommere.

3. Beregning ρ (Rho) for bundne rækker:

Eksempel 3:

Følgende data giver scores af 10 studerende på to forsøgsforsøg med et mellemrum på 2 uger i prøve I og prøve II.

Beregn korrelationen mellem scorene af to forsøg ved hjælp af rangforskelmetoden:

Sammenhængen mellem prøve I og II er positiv og meget høj. Se omhyggeligt på de score, der er opnået af de 10 studerende på prøve I og II af testen.

Kan du finde nogen speciel funktion i de score, der er opnået af de 10 studerende? Sandsynligvis vil dit svar være "ja".

I ovenstående tabel i kolonne 2 og 3 vil du opdage, at mere end en studerende får de samme resultater. I kolonne 2 får eleverne A og G samme score viz. 10. I kolonne 3 får eleverne A og B, C og F og G og J også de samme score, der er henholdsvis 16, 24 og 14.

Bestemt vil disse par have samme rækker; kendt som bundet rækker. Proceduren for tildeling af rækken til de gentagne scorer er noget forskellig fra de ikke gentagne scorer.

Se på kolonne 4. Studenter A og G har lignende scoringer på 10 hver og de har 6. og 7. rang i gruppen. I stedet for at tildele 6. og 7. rang er gennemsnittet af de to rangeringer, dvs. 6, 5 (6 + 7/2 = 13/2) blevet tildelt hver af dem.

Den samme procedure er blevet fulgt med hensyn til score på prøve II. I dette tilfælde forekommer bånd på tre steder. Studerende C og F har samme score og dermed få den gennemsnitlige rangering af (1 + 2/2 = 1, 5). Student A og B har rangposition 5 og 6; dermed er tildelt 5, 5 (5 + 6/2) rang hver. Tilsvarende er studerende G og J blevet tildelt 7, 5 (7 + 8/2) rang hver.

Hvis værdierne gentages mere end to gange, kan samme procedure følges for at tildele rangerne:

For eksempel:

hvis tre studerende får en score på 10, i 5., 6. og 7. klasse, vil hver af dem få en rang på 5 + 6 + 7/3 = 6.

Resten af ​​procedurens trin følges til beregning af ρ (rho) er de samme som forklaret tidligere.

fortolkning:

Værdien af ​​ρ kan også fortolkes på samme måde som Karl Pearsons korrelationskoefficient. Det varierer mellem -1 og + 1. Værdien + 1 står for en perfekt positiv aftale eller forhold mellem to sæt af rækker, mens p = -1 indebærer et perfekt negativt forhold. I tilfælde af intet forhold eller enighed mellem rækker er værdien af ​​ρ = 0.

Fordele ved Rank Difference Metode:

1. Spearman's Rank Order Coefficient of Correlation beregning er hurtigere og lettere end (r) beregnet af Pearson's Product Moment Method.

2. Det er en acceptabel metode, hvis data kun er tilgængelige i ordinær form eller antal parrede variable er mere end 5 og ikke større end 30 med mindst eller få bånd i rækker.

3. Det er ret nemt at fortolke p.

Begrænsninger:

1. Når intervaldataene konverteres til rangordnede data, går informationen om størrelsen af ​​scoreforskellene tabt; fx i tabel 5.10, hvis D i prøve II får score fra 18 op til 21, forbliver hans rang kun 4.

2. Hvis antallet af sager er mere, bliver det et kedeligt arbejde at give rækker til dem.