Dispersionsforanstaltninger

Efter at have læst denne artikel vil du lære om de forskellige målinger af dispersion, der anvendes i social forskning.

I social forskning ønsker vi ofte at vide omfanget af homogenitet og heterogenitet blandt respondenterne med hensyn til en given karakteristik. Ethvert sæt sociale data har værdier, der kan karakterisere heterogenitet. Sættet af sociale data karakteriseres typisk af værdiernes heterogenitet.

Faktisk er omfanget af, at de er heterogene eller varierer mellem hinanden, af grundlæggende betydning i statistikken. Foranstaltninger af central tendens beskriver en vigtig egenskab ved et sæt data typisk, men de fortæller os ikke noget om denne anden grundlæggende egenskab.

Derfor har vi brug for måder at måle heterogenitet på - i hvilket omfang data spredes. Foranstaltningerne, der giver denne beskrivelse, kaldes tiltag af dispersion eller variabilitet. De følgende tre fordelinger vist i figur 18.4 vil illustrere vigtigheden af ​​at måle dispersionen af ​​statistiske data.

Fordeling af middelværdier for prøver af forskellige størrelser :

Det kan ses, at det aritmetiske gennemsnit af alle de tre kurver i ovenstående figur er det samme, men fordelingen af ​​værdier som afbildet af kurve A viser mindre variabilitet (dispersion) end den, der er afbildet af kurve B, mens kurve B har mindre variabilitet sammenlignet med det, der er vist ved kurve C.

Hvis vi kun betragter målet for den centrale tendens til distributioner, vil vi savne en vigtig forskel mellem de tre kurver. For at få en bedre forståelse af dataets mønster, må vi også få måleen for dens spredning eller variabilitet, vi viser nu at overveje forskellige målinger af dispersion.

Rækkevidde:

Området er defineret som forskellen mellem de højeste og laveste værdier: Matematisk,

R (rækkevidde) = M n - M L

hvor Mn og Ml står for den højeste og laveste værdi. Således for datasættet: 10, 22, 20, 14 og 14 vil intervallet være forskellen mellem 22 og 10, dvs. 12. I tilfælde af grupperede data tager vi området som forskellen mellem de ekstreme midterpunkter klasser. Således, hvis midtpunktet for det laveste interval er 150 og det højeste er 850, vil afstanden være 700.

Den eneste fordel ved rækkevidde, hvilken måling af dispersion der sjældent anvendes, er, at den let kan beregnes og let forstås. På trods af denne fordel er det generelt ikke et meget nyttigt mål for dispersion; dens største ulempe er, at den ikke fortæller os noget om spredningen af ​​værdier, der er mellemliggende mellem de to yderpunkter.

Halvdel-Quartile Range eller Quartile Afvigelse:

Et andet mål for dispersion er semi-inter-kvartilområdet, almindeligvis kendt som Quartile Deviation. Kvartiler er de punkter, der deler array eller række af værdier i fire lige store dele, som hver indeholder 25 procent af emnerne i distributionen. Kvartilerne er så de højeste værdier i hver af disse fire dele. Interkvartilintervallet er forskellen mellem værdierne for første og tredje kvartiler.

Hvor og Q1 og Q3 står for første og tredje kvartiler, er halverinterkvartilområdet eller kvartilafvigelsen således givet ved formel = Q3-Q1 / 2

Beregning af kvartilafvigelse:

Kvartilafvigelse er et absolut mål for dispersion. Hvis der anvendes kvartilafvigelse til sammenligning af dispersionerne af serier, er det nødvendigt at konvertere den absolutte mål til en kvartilafvigelse-koefficient.

Middelafvigelse :

Omfang og kvartilafvigelse lider af alvorlige ulemper, dvs. de beregnes ved kun at tage hensyn til to værdier af en serie. Således er disse to dispersionsmål ikke baseret på alle observationer af serien. Som et resultat er sammensætningen af ​​serien fuldstændig ignoreret. For at undgå denne mangel kan dispersionen beregnes under hensyntagen til alle observationer af serien i forhold til en central værdi.

Metoden til beregning af dispersion kaldes metoden for gennemsnitlige afvigelser (middelafvigelse). Som navnet tydeligt antyder, er det det aritmetiske gennemsnit af afvigelser af forskellige elementer fra en måling af central tendens.

Som vi ved godt, vil summen af ​​afvigelser fra en central værdi altid være nul. Dette tyder på, at for at opnå en gennemsnitlig afvigelse (omkring middelværdien eller en af ​​de centrale værdier), må vi på den ene eller anden måde slippe af med eventuelle negative tegn. Dette gøres ved at ignorere tegn og tage den absolutte værdi af forskellene.

I vores hypotetiske eksempel er middelværdien af ​​tallene 12, 14, 15, 16 og 18 15. Dette indebærer, at forskellen på 15 fra hvert af disse tal, ignorerer tegnene hele tiden og derefter tilføjer resultaterne, vil vi få den samlede afvigelse.

Opdeling af det med 5 får vi:

= 1, 6 (hvor | d | står for summen af ​​absolutte afvigelser).

Vi kan derfor sige at i gennemsnit adskiller scorerne fra gennemsnittet med 1, 6.

Beregning af gennemsnitlig afvigelse i ophævet dato (individuelle observationer):

Beregning af middelafvigelse i kontinuerlig serie:

Middelafvigelseskoefficient :

For at sammenligne den gennemsnitlige afvigelse i serier beregnes gennemsnitskoefficienten eller den relative middelafvigelse. Dette opnås ved at dividere den gennemsnitlige afvigelse ved den måling af central tendens, hvorfra afvigelser blev beregnet. Dermed,

Middelværdi. Afvigelse / X

Anvendelse af denne formel til det foregående eksempel har vi,

Middelfordelingskoefficient = 148/400 = 0, 37

Standardafvigelse :

Det mest anvendelige og hyppigt anvendte mål for dispersion er standardafvigelsen eller root-mean square-afvigelsen omkring gennemsnittet. Standardafvigelsen er defineret som kvadratroten af ​​det aritmetiske gennemsnit af kvadratet af afvigelserne omkring middelværdien. Symbolsk

σ = √Σd 2 / N

hvor σ (græsk brev Sigma) står for standardafvigelsen, Σd 2 for summen af ​​kvadratet af afvigelserne målt fra middel og N for antallet af elementer.

Beregning af standardafvigelse i serie af individuelle observationer:

Short Cut Metode:

Beregning af standardafvigelse i diskret serie :

I en diskret serie beregnes afvigelserne fra et antaget middel først og multipliceres med de respektive frekvenser af elementer. Afvigelserne er kvadreret og multipliceret med de respektive frekvenser af emnerne. Disse produkter er opgjort og divideret med summen af ​​frekvenserne. Standardafvigelsen beregnes med følgende formel:

Den følgende illustration ville forklare formlen:

Beregning af standardafvigelse i en kontinuerlig serie :

I en sammenhængende serie er klassens intervaller repræsenteret ved deres midtpunkter. Normalt er klassens intervaller imidlertid af samme størrelse, og afvigelserne fra det antagne gennemsnit udtrykkes således i klasseintervaller. Alternativt ankommer trinafvigelser ved at dividere afvigelserne med størrelsen af ​​klasseintervallet.

Formlen for beregning af standardafvigelse er således skrevet som under:

hvor jeg står for den fælles faktor eller størrelsen af ​​klasseintervallet.

Det følgende eksempel ville illustrere denne formel:

Variationskoefficient:

Standardafvigelsen repræsenterer måling af absolut dispersion. Det er også nødvendigt at måle den relative dispersion af to eller flere fordelinger. Når standardafvigelsen er relateret til dens gennemsnit, måler den relativ spredning. Karl Pearson har udarbejdet en simpel måling af relativ spredning, som generelt er kendt som variationskoefficienten.

Variationskoefficienten for problemet i tabel 18.47 er: