4 Almindeligvis anvendte Dispersionsforanstaltninger

Der er fire almindeligt anvendte foranstaltninger til at indikere variabiliteten (eller dispersionen) inden for et sæt foranstaltninger. De er: 1. Område 2. Kvartilafvigelse 3. Gennemsnitlig afvigelse 4. Standardafvigelse.

Foranstaltning nr. 1. Område:

Område er intervallet mellem højeste og laveste score. Område er et mål for variabilitet eller spredning af variaterne eller observationerne indbyrdes og giver ikke en ide om spredningen af ​​observationerne omkring en central værdi.

Symbolisk R = Hs - Ls. Hvor R = Område;

Hs er 'Højeste score' og Ls er det laveste resultat.

Beregning af rækkevidde (ugrupperede data):

Eksempel 1:

Resultatet af ti drenge i en test er:

17, 23, 30, 36, 45, 51, 58, 66, 72, 77.

Eksempel 2:

Resultatet af ti piger i en test er:

48, 49, 51, 52, 55, 57, 50, 59, 61, 62.

I eksempel jeg er den højeste score 77, og den laveste score er 17.

Så intervallet er forskellen mellem disse to scores:

. . . Område = 77 - 17 = 60

På lignende måde, i eksempel II

Område = 62 - 48 = 14

Her finder vi, at poengsummerne af drenge er bredt spredt. Således varierer antallet af drenge meget, men antallet af piger varierer ikke meget (selvfølgelig varierer de mindre). Således er variabiliteten af ​​poengsummen af ​​drenge mere end variabiliteten af ​​antallet af piger.

Beregning af rækkevidde (grupperede data):

Eksempel 3:

Find rækkevidden af ​​data i følgende distribution:

Opløsning:

I dette tilfælde er den øverste sande grænse for den højeste klasse 70-79 Hs = 79, 5 og den nederste sande grænse for den laveste klasse 20-29 er Ls = 19, 5

Derfor er rækkevidde R = Hs - Ls

= 79, 5 - 19, 5 = 60, 00

Område er et variabilitetsindeks. Når rækken er mere, er gruppen mere variabel. Jo mindre intervallet jo mere homogent er gruppen. Område er den mest generelle måling af "spread" eller "scatter" af scores (eller foranstaltninger). Når vi ønsker at foretage en grov sammenligning af variabilitet af to eller flere grupper, kan vi beregne rækkevidden.

Område som ovenfor sammenlignet er i en rå form eller er et absolut mål for dispersion og er uegnet til sammenligning, især når serien er i to forskellige enheder. Til sammenligning beregnes afstandskoefficienten ved at dividere området med summen af ​​de største og mindste punkter.

Fordele:

1. Område kan beregnes ret let.

2. Det er en enkleste måling af dispersion.

3. Det beregnes, når vi vil foretage en grov sammenligning af to eller flere grafer af variabilitet.

Begrænsninger:

1. Område er ikke baseret på alle observationer af serien. Det tager kun hensyn til de mest ekstreme tilfælde.

2. Det hjælper os til kun at foretage en grov sammenligning af to eller flere grupper af variabilitet.

3. Intervallet tager højde for de to ekstreme resultater i en serie.

Således, når N er lille, eller når der er store huller i frekvensfordelingen, er afstanden som et mål for variabilitet ret upålideligt.

Eksempel 4:

Resultater af gruppe A - 3, 5, 8, 11, 20, 22, 27, 33

Her spænder = 33 - 3 = 30

Resultater af gruppe B - 3, 5, 8, 11, 20, 22, 27, 93

Her spænder = 93 - 3 = 90.

Sammenlign bare seriens serier i gruppe A og gruppe B. I gruppe A, hvis en enkelt score 33 (sidste score) ændres til 93, er rækkevidden bredt ændret. Således kan en enkelt high score forøge området fra lav til høj. Derfor er sortimentet ikke et pålideligt mål for variabilitet.

4. Det påvirkes meget af fluktuationer i stikprøver. Dens værdi er aldrig stabil. I en klasse hvor normalt højden af ​​elever spænder fra 150 cm til 180 cm, hvis en dværg, hvis højde er 90 cm optages, vil intervallet skyde op fra 90 cm til 180 cm.

5. Range repræsenterer ikke serien og spredningen virkelig. Asymmetrisk og symmetrisk fordeling kan have samme rækkevidde, men ikke den samme spredning. Det er af begrænset nøjagtighed og skal bruges med forsigtighed.

Vi bør dog ikke overse den kendsgerning, at rækkevidde er et uhyre mål for spredning og er fuldstændig uegnet til præcise og præcise undersøgelser.

Foranstaltning # 2. Kvartilafvigelse:

Område er intervallet eller afstanden på måle skalaen, som omfatter 100 procent tilfælde. Begrænsningerne i intervallet skyldes kun afhængigheden af ​​de to ekstreme værdier.

Der er nogle dispergeringsforanstaltninger, der er uafhængige af disse to ekstreme værdier. De mest almindelige af disse er kvartilafvigelsen, der er baseret på intervallet, der indeholder de midterste 50 procent af tilfælde i en given fordeling.

Kvartilafvigelse er halvdelen af ​​skalaafstanden mellem det tredje kvartil og det første kvartil. Det er Semi-Interkvartile-sortimentet af en distribution:

Før vi tager kvartilafvigelsen op, må vi kende betydningen af ​​kvartaler og kvartiler.

For eksempel resulterer en test 20 scoringer, og disse scoringer arrangeres i faldende rækkefølge. Lad os opdele fordelingen af ​​scoringer i fire lige store dele. Hver del vil præsentere et kvart. I hvert kvartal vil der være 25% (eller 1/4 af N) tilfælde.

Som scoringer arrangeres i faldende rækkefølge,

De 5 bedste resultater vil være i 1. kvartal,

De næste 5 scoringer vil være i 2. kvartal,

De næste 5 scoringer vil være i 3. kvartal og

Og de laveste 5 scoringer vil være i fjerde kvartal.

Med henblik på at få en bedre undersøgelse af sammensætningen af ​​en serie kan det være nødvendigt at opdele det i tre, fire, seks, syv, otte, ni, ti eller hundrede dele.

Normalt er en serie opdelt i fire, ti eller hundrede dele. Et element deler serien i to dele, tre genstande i fire dele (kvartiler), ni genstande i ti dele (deciler) og nioghalvfems artikler i hundrede dele (percentiler).

Der er således tre kvartiler, ni deciler og nioghalvfems percentiler i en serie. Det andet kvartil, eller 5. decil eller 50-percentilen er medianen (se figur).

Værdien af ​​elementet, der deler første halvdel af en serie (med værdier mindre end medianens værdi) i to lige dele kaldes første kvartil (Q 1 ) eller nedre kvartil. Med andre ord er Q 1 et punkt under hvilket 25% af sagerne ligger. Q 1 er 25-percentilen.

Det andet kvartil (Mdn) eller midtkvartilen er medianen. Med andre ord er det et punkt under hvilket 50% af scorerne ligger. En median er den 50. percentil.

Værdien af ​​elementet, som deler den sidste halvdel af serien (med værdier mere end medianens værdi) i to lige store dele kaldes det tredje kvartil (Q 3 ) eller den øvre kvartil. Med andre ord er Q 3 et punkt under, hvor 75% af scoreene ligger. Q 3 er 75. percentilen.

Bemærk:

En elev skal tydeligt skelne mellem kvart og kvartil. Kvartalet er en rækkevidde; men kvartil er et punkt på skalaen. Kvartaler er nummereret fra top til bund (eller fra højeste score til laveste score), men kvartiler er nummereret fra bunden til toppen.

Kvartilafvigelsen (Q) er en halv skalaafstanden mellem det tredje kvartil (Q 3 ) og Det første kvartil (Q 1 ):

L = Nedre grænse for ci hvor Q3 ligger,

3N / 4 = 3/4 eller ikke 75% af N.

F = summen af ​​alle frekvenser under 'L',

fq = Frekvensen af ​​ci, hvor Q3 ligger, og i = størrelse eller længde af ci

L = Nedre grænse for ci hvor Q 1 ligger,

N / 4 = En fjerde (eller 25%) N,

F = summen af ​​alle frekvenser under 'L',

fq = frekvens af ci, hvorpå Q 1 ligger,

og i = størrelse eller længde af ci

Inter-Quartile Range:

Omfanget mellem det tredje kvartil og det første kvartil er kendt som interkvartilområdet. Symbolisk interkvartilområde = Q 3 - Q 1 .

Halvinterkvartil Range:

Det er halvdelen af ​​afstanden mellem det tredje kvartil og det første kvartil.

Således er SI R. = Q3 - Q 1/4

Q eller Quartile Afvigelse er ellers kendt som semi-interkvartile rækkevidde (eller SIR)

Således Q = Q3 - Q1 / 2

Hvis vi vil sammenligne formlen for Q 3 og Q 1 med formlen median, vil følgende observationer være klare:

jeg. I tilfælde af median bruger vi N / 2, mens for Q 1 vi bruger N / 4 og for Q 3 bruger vi 3N / 4.

ii. I tilfælde af median bruger vi fm til at angive hyppigheden af ​​ci, på hvilken median ligger men i tilfælde af Q 1 og Q 3 bruger vi fq til at betegne frekvensen af ​​ci, hvorpå Q 1 eller Q 3 ligger.

Beregning af Q (ubearbejdet data):

For at beregne Q er det nødvendigt at beregne Q 3 og Q 1 først. Q 1 og Q 3 beregnes på samme måde som vi beregner medianen.

De eneste forskelle er:

(i) Ved medianen tællede vi 50% tilfælde (N / 2) fra bunden, men

(ii) I tilfælde af Q 1 skal vi tælle 25% af sagerne (eller N / 4) fra bunden og

(iii) I tilfælde af Q 3 skal vi tælle 75% af sagerne (eller 3N / 4) fra bunden.

Eksempel 5:

Find ud af Q af de følgende scores 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39.

Der er 20 point.

25% af N = 20/4 = 5

Q 1 er et punkt under hvilket 25% af sagerne ligger. I dette eksempel er Q 1 et punkt under hvilke 5 tilfælde ligger. Fra blot inspektion af bestilte data er det konstateret, at under 24, 5 er der 5 tilfælde. Således Q 1 = 24, 5

Ligeledes er Q 3 et punkt under hvilket 75% af lettere lyver.

75% af N = 3/4 x 20 = 15

Vi finder, at under 34, 5, 15 tilfælde ligger

Således Q3 = 34, 5.

I en symmetrisk fordeling ligger medianen halvvejs på skalaen fra Q 1 og Q 3 . Derfor giver værdien Q 1 + Q eller Q 3 - Q værdien af ​​medianen. Men i almindelighed er distributioner ikke symmetriske, og derfor vil Q 1 + Q eller Q 3 - Q ikke give værdien af ​​medianen.

Beregning af Q (grupperede data):

Eksempel 6:

Scorerne opnået af 36 elever i en test er vist i tabellen. Find kvartilafvigelsen af ​​scorerne.

I kolonne 1 har vi taget klasseinterval, i kolonne 2 har vi taget frekvensen, og i kolonne 3 er kumulative frekvenser fra bunden blevet skrevet.

Her er N = 36, så for Q 1 skal vi tage N / 4 = 36/4 = 9 tilfælde og for Q 3 skal vi tage 3N / 4 = 3 x 36/4 = 27 tilfælde. Ved at se i kolonne 3 vil cf = 9 være inkluderet i ci 55-59, hvis faktiske grænse er 54, 5 - 59, 5. Q1 vil ligge i intervallet 54, 5 - 59, 5.

Værdien af ​​Q 1 skal beregnes som følger:

Til beregning af Q 3 vil cf = 27 indgå i ci 65 - 69, hvis faktiske grænser er 64. 5 - 69.5. Så Q 3 vil ligge i intervallet 64, 5 - 69, 5, og dets værdi skal beregnes som følger:

Fortolkning af kvartilafvigelse:

Ved tolkning af værdien af ​​kvartilafvigelse er det bedre at have værdierne for Median, Q 1 og Q 3 sammen med Q. Hvis værdien af ​​Q er mere, vil dispersionen være mere, men igen afhænger værdien af ​​skalaen af måling. To værdier af Q må kun sammenlignes, hvis den anvendte skala er den samme. Q målt for scoringer ud af 20 kan ikke sammenlignes direkte med Q for scoringer ud af 50.

Hvis median og Q er kendt, kan vi sige, at 50% af sagerne ligger mellem 'Median - Q' og 'Median + Q'. Disse er de mellemste 50% af sagerne. Her kommer vi til at vide om omfanget af kun de mellemste 50% af sagerne. Hvordan den nederste 25% af sagerne og de øverste 25% af sagerne distribueres, er ikke kendt gennem denne foranstaltning.

Sommetider er de ekstreme tilfælde eller værdier ikke kendte, i hvilket tilfælde det eneste alternativ, der er til rådighed for os, er at beregne median- og kvartilafvigelse som mål for central, tendens og spredning. Gennem median og kvartiler kan vi konkludere om fordelingenes symmetri eller skævhed. Lad os derfor få en ide om symmetriske og forskydede distributioner.

Symmetriske og skæve fordelinger:

En fordeling siges at være symmetrisk, når frekvenserne er symmetrisk fordelt omkring måden af ​​central tendens. Med andre ord kan vi sige, at fordelingen er symmetrisk, hvis værdierne på lige afstand på de to sider af målingen af ​​central tendensen har samme frekvenser.

Eksempel 7:

Find om den givne distribution er symmetrisk eller ej.

Her er målingen af ​​central tendens, middel og median 5. Hvis vi begynder at sammenligne værdiernes frekvenser på de to sider af 5, finder vi, at værdierne 4 og 6, 3 og 7, 2 og 8, 1 og 9, 0 og 10 har samme antal frekvenser. Så fordelingen er perfekt symmetrisk.

I en symmetrisk fordeling ligger middelværdier og medianer lige, og median ligger på lige stor afstand fra de to kvartiler dvs. Q 3 - Median = Median-Q 1 .

Hvis en fordeling ikke er symmetrisk, refererer afgangen fra symmetrien til dens skævhed. Skewness indikerer at kurven vender mere mod den ene side end den anden. Så kurven har en længere hale på den ene side.

Skævheden siges at være positiv, hvis den længere hale er på højre side, og det siges at være negativt, hvis den længere hale er på venstre side.

De følgende figurer viser udseendet af en positivt skæv og negativt skæv kurve:

Q 3 - Mdn> Mdn - Q 1 angiver + ve skævhed

Q 3 - Mdn <Mdn - Q 1 angiver - skævhed

Q 3 - Mdn = Mdn - Q 1 angiver nul skævhed

Fordele ved Q:

1. Det er en mere repræsentativ og troværdig måling af variabilitet end det samlede interval.

2. Det er et godt indeks for score tæthed i midten af ​​distributionen.

3. Kvartiler er nyttige til at angive skævheden af ​​en fordeling.

4. Som medianen er Q gældende for open-end distributioner.

5. Hvor median foretrækkes som et mål for central tendens, foretrækkes kvartilafvigelse som et mål for dispersion.

Begrænsninger af Q:

1. Imidlertid er, som median, kvartilafvigelse ikke acceptabel for algebraisk behandling, da den ikke tager hensyn til alle værdierne af fordelingen.

2. Det beregner kun det tredje og det første kvartil og taler os om rækken. Fra Q 'kan vi ikke få et ægte billede om hvordan scorerne er spredt fra den centrale værdi. Det er 'Q' giver os ingen ide om sammensætningen af ​​scoringer. 'Q' af to serier kan være lige, men serier kan være ganske forskellige i sammensætningen.

3. Det giver groft en ide om spredning.

4. Det ignorerer scorerne over det tredje kvartil og scorerne under det første kvartil. Det taler simpelthen os om den midterste 50% af fordelingen.

Anvendelse af Q:

1. Når medianen er et mål for en central tendens

2. Når fordelingen er ufuldstændig i begge ender

3. Når der er spredt eller ekstremt score, som uforholdsmæssigt vil påvirke SD'et;

4. Når koncentrationen omkring medianen - den midterste 50% af sagerne er af primær interesse.

Kvartilafvigelse:

Kvartilafvigelsen er et absolut mål for spredning og for at gøre det relativt beregner vi 'kvartilafvigelsens koefficient'. Koefficienten beregnes ved at dividere kvartilafvigelsen med gennemsnittet af kvartiler.

Det er givet af:

Kvartilafvigelsefaktor = Q3 - Q1 / Q3 + Q1

Hvor Q 3 og Q 1 refererer til henholdsvis øvre og nedre kvartiler.

Foranstaltning nr. 3. Gennemsnitlig afvigelse (AD) eller gennemsnitlig afvigelse (MD):

Som vi allerede har diskuteret, spænder rækkevidden og 'Q''en omtrent os om en vis variabilitet. Sortimentet af to serier kan være det samme, eller kvartilafvigelsen i to serier kan være den samme, men de to serier kan være forskellige. Hverken rækken eller 'Q'en taler om sammensætningen af ​​serien. Disse to foranstaltninger tager ikke hensyn til de enkelte scoringer.

Metoden for gennemsnitlig afvigelse eller 'den gennemsnitlige afvigelse', som det kaldes til tider, har tendens til at fjerne en alvorlig mangel i begge metoder (Range og 'Q'). Den gennemsnitlige afvigelse kaldes også det første øjeblik for dispersion og er baseret på alle elementer i en serie.

Gennemsnitlig afvigelse er det aritmetiske gennemsnit af afvigelserne i en serie beregnet ud fra en vis måling af central tendens (middel, median eller mode), idet alle afvigelser betragtes som positive. Med andre ord er gennemsnittet af afvigelserne af alle værdierne fra det aritmetiske middel kendt som middelafvigelse eller gennemsnitlig afvigelse. (Normalt er afvigelsen taget fra gennemsnittet af fordelingen.)

Hvor Σ er summen af;

X er partituret; M er den gennemsnitlige; N er det samlede antal scoringer.

Og 'd' betyder afvigelsen af ​​individuelle score fra middelværdien.

Beregning af gennemsnitlig afvigelse (ophævet data):

Eksempel 8:

Find gennemsnitlige afvigelser for følgende sæt af variabler:

X = 55, 45, 39, 41, 40, 48, 42, 53, 41, 56

Opløsning:

For at finde middelafvigelse beregner vi først middelværdien for det givne sæt observationer.

Afvigelserne og de absolutte afvigelser er angivet i tabel 4.2:

Eksempel 9:

Find den gennemsnitlige afvigelse for nedenstående score:

25, 36, 18, 29, 30, 41, 49, 26, 16, 27

Middelværdien af ​​de ovennævnte resultater viste sig at være 29, 7.

Til beregning af middelafvigelsen:

Bemærk:

Hvis du bruger noget algebra, kan du se, at Σ (X - M) er nul

Beregning af middelafvigelse (grupperede data):

Eksempel 10:

Find den gennemsnitlige afvigelse for følgende frekvensfordeling:

Her i kolonne 1 skriver vi ci'erne, i kolonne 2 skriver vi de tilsvarende frekvenser. I kolonne 3 skriver vi midtpunkterne af ci'erne, der betegnes med 'X' i kolonne 4, vi skriver produktet af frekvenser og midtpunkter af ci'erne betegnet med X, i kolonne 5 skriver vi de absolutte afvigelser af midtpunkterne i ci fra middelværdien, som betegnes af | d | og i kolonne 6 skriver vi produktet af absolutte afvigelser og frekvenser, betegnet med | fd |.

Fortjeneste af middelafvigelse:

1. Middelafvigelse er det enkleste mål for spredning, der tager hensyn til alle værdierne i en given fordeling.

2. Det er let forståeligt selv af en person, der ikke er velbevandret i statistikken.

3. Det påvirkes ikke meget af værdien af ​​ekstreme varer.

4. Det er gennemsnittet af afvigelserne af individuelle score fra middelværdien.

Begrænsninger:

1. Middelafvigelse ignorerer de algebraiske tegn på afvigelserne og er derfor ikke i stand til yderligere matematisk behandling. Så det bruges kun som et beskrivende mål for variabilitet.

2. MD er faktisk ikke til fælles brug. Det anvendes sjældent i moderne statistikker, og generelt spredes der ved standardafvigelse.

Brug af MD:

1. Når det er ønskeligt at veje alle afvigelser i henhold til deres størrelse.

2. Når det er nødvendigt at vide, i hvilket omfang foranstaltningerne spredes på hver side af middelværdien.

3. Når ekstreme afvigelser unødigt påvirker standardafvigelsen.

Fortolkning af middelafvigelse:

For at fortolke den gennemsnitlige afvigelse er det altid bedre at se på det sammen med gennemsnittet og antallet af sager. Middel er påkrævet, fordi den gennemsnitlige og den gennemsnitlige afvigelse er henholdsvis punktet og afstanden på samme målestok.

Uden middel kan den gennemsnitlige afvigelse ikke fortolkes, da der ikke er nogen anelse om målestørrelsen eller måleenheden. Antallet af sager er vigtigt, fordi dispersionsmåden afhænger af den. For mindre antal tilfælde er foranstaltningen sandsynligvis mere.

I de to eksempler har vi:

I det første tilfælde er gennemsnitlig afvigelse næsten 25% af gennemsnittet, mens det i andet tilfælde er mindre. Men den gennemsnitlige afvigelse kan være mere i første omgang på grund af mindre antal tilfælde. Så de to gennemsnitlige afvigelser beregnet ovenfor angiver næsten ens dispersion.

Foranstaltning nr. 4. Standardafvigelse eller SD og variant:

Ud af flere målinger af dispersion er den mest anvendte foranstaltning "standardafvigelse". Det er også det vigtigste på grund af at være den eneste måling af dispersion, der kan anvendes til algebraisk behandling.

Her overvejes også afvigelserne af alle værdierne fra fordelingenes middelværdi. Denne foranstaltning lider under de mindste ulemper og giver nøjagtige resultater.

Det fjerner ulempen ved at ignorere de algebraiske tegn, mens der beregnes afvigelser af genstande fra gennemsnittet. I stedet for at forsømme tegnene, kvitterer vi afvigelserne og derved gør dem alle positive.

Det adskiller sig fra AD i flere henseender:

jeg. Ved beregning af AD eller MD ignorerer vi tegn, mens vi ved at finde SD undgår tegnsvanskeligheder ved at kvadrere de separate afvigelser;

ii. De kvadreret afvigelser, der anvendes i beregning af SD, tages altid fra middelværdien, aldrig fra median eller mode.

"Standardafvigelse eller SD er kvadratroden af ​​middelværdien af ​​de kvadreret afvigelser fra de enkelte scoringer fra gennemsnittet af fordelingen."

For at være mere klar skal vi bemærke her, at vi ved beregning af SD'en firkanter alle afvigelserne separat. Find deres sum, divider summen med det samlede antal scoringer og find derefter kvadratroten af ​​middelværdien af ​​de kvadratiske afvigelser.

Så SD kaldes også 'Root mean square deviations from mean' og er generelt betegnet af det lille græske bogstav σ (sigma).

Symbolisk defineres standardafvigelsen for ugrupperede data som:

Hvor d = afvigelse af individuelle score fra middelværdien;

(Nogle forfattere bruger 'x' som afvigelsen af ​​individuelle scoringer fra den gennemsnitlige)

Σ = summen af; N = samlet antal tilfælde.

De gennemsnitlige firkantafvigelser betegnes som varians. Eller i enkle ord er kvadrat af standard for afvigelse kaldet det andet øjeblik af dispersion eller variation.

Beregning af SD (Udelukkede data):

Der er to måder at beregne SD til ugrupperede data:

(a) Direkte metode.

b) kortvarig metode

(a) Direkte metode:

Find standardafvigelsen for nedenstående score:

X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9

Denne metode bruger formel (18) til at finde SD, der involverer følgende trin:

Trin 1:

Beregn aritmetisk gennemsnit af de givne data:

Trin 2:

Skriv værdien af ​​afvigelsen d, dvs X - M mod hver score i kolonne 2. Her skal afvigelserne fra scorerne tages fra 12. Nu vil du opdage, at Σd eller Σ (X - M) er lig med nul. Tænk, hvorfor er det så? Tjekke det. Hvis dette ikke er tilfældet, skal du finde ud af fejlen ved beregningen og rette op på den.

Trin 3:

Firkant afvigelserne og skriv værdien af ​​d 2 mod hver score i kolonne 3. Find summen af ​​kvadreret afvigelser. Σd 2 = 84.

Tabel 4.5 Beregning af SD:

Den krævede standardafvigelse er 2, 9.

Trin 4:

Beregn middelværdien af ​​de kvadratiske afvigelser, og find derefter den positive kvadratrod for at få værdien af ​​standardafvigelsen, dvs. σ.

Ved hjælp af formel (19) vil variansen være σ 2 = Σd 2 / N = 84/10 = 8, 4

(b) kortvarig metode:

I de fleste tilfælde forekommer det aritmetiske gennemsnit af de givne data at være en brøkdel, og processen med at tage afvigelser og kvadrering bliver derfor kedelig og kalkforbrugende ved beregning af SD

For at lette beregningen i sådanne situationer kan afvigelserne tages fra et antaget middel. Den justerede short-cut formel til beregning af SD vil da være,

hvor,

d = Afvigelse af scoren fra et antaget middel, siger AM; dvs. d = (X - AM).

d 2 = Kvadratet af afvigelsen.

Σd = Summen af ​​afvigelserne.

Σd 2 = Summen af ​​de kvadratiske afvigelser.

N = Antal af scorerne eller variater.

Beregningsmetoden er afklaret i følgende eksempel:

Eksempel 11:

Find SD for de scores, der er angivet i tabel 4.5 i X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9. Brug kortfinding metode.

Opløsning:

Lad os antage, at det betyder AM = 11.

Afvigelserne og kvadraterne af afvigelser, der er nødvendige i formlen, er angivet i følgende tabel:

Sætter værdierne fra tabel i formel, SD

Short-cut-metoden giver det samme resultat som vi opnået ved at anvende direkte metode i tidligere eksempel. Men shortcut metode har tendens til at reducere beregningsarbejdet i situationer hvor aritmetiske gennemsnit ikke er et heltal.

Beregning af SD (grupperede data):

(a) Lang metode / direkte metode:

Eksempel 12:

Find SD for følgende distribution:

Her er også det første skridt at finde den gennemsnitlige M, som vi skal tage midtpunkterne for c.i'en betegnet med X 'og find produktet f X.'. Middel er givet af Σ f x '/ N. Det andet trin er at finde afvigelserne mellem midtpunkterne af klasseintervaller X 'fra middelværdien, dvs. X'- M betegnet med d.

Det tredje trin er at firkantede afvigelserne og finde produktet af de kvadratiske afvigelser og den tilsvarende frekvens.

For at løse ovenstående problem er ci'er skrevet i kolonne 1, frekvenser er skrevet i kolonne 2, midtpunkterne af c.i er dvs. X 'er skrevet i kolonne 3, er produktet af f X' skrevet i kolonne 4, afvigelsen af X 'fra middelværdien er skrevet i kolonne 5, er den kvadratiske afvigelse d 2 skrevet i kolonne 6, og produktet f d 2 er skrevet i kolonne 7,

Som vist nedenfor:

Så skal afvigelserne fra midtpunkterne tages fra 11.1.

Den krævede standardafvigelse er således 4, 74.

(b) kortvarig metode:

Nogle gange er det i direkte metode observeret, at afvigelserne fra det faktiske middel resulterer i decimaler og værdierne af d 2 og fd 2 er vanskelige at beregne. For at undgå dette problem følger vi en kortfattet metode til beregning af standardafvigelsen.

I denne metode, i stedet for at tage afvigelserne fra det faktiske middel, tager vi afvigelser fra et passende valgt antaget middel, siger AM

Den følgende formel bruges til beregning af SD:

hvor d er afvigelse fra antaget middelværdi.

Følgende trin er så involveret i beregningen af ​​standardafvigelse:

(i) Hent afvigelser fra variaterne fra antaget middel AM som d = (X - AM)

(ii) Multiplicere disse afvigelser med tilsvarende frekvenser for at få kolonnen fd . Summen af ​​denne kolonne giver Σ fd.

fd med tilsvarende afvigelse (d)

(iii) Multiplicer for at få kolonnen fd 2 . Summen af ​​denne kolonne bliver Σ fd 2 .

(iv) Brug formel (22) til at finde SD

Eksempel 13:

Ved hjælp af short cut metode finder du SD af dataene i tabel 4.7.

Opløsning:

Lad os antage, at AM = 10. Andre beregninger til beregning af SD er angivet i tabel 4.8.

Sætte værdier fra bordet

Ved hjælp af formlen (19) er variansen

(c) Trinafvigelsesmetode:

I denne metode skriver vi ci 's i kolonne 1; i kolonne 2 skriver vi frekvenserne; i kolonne 3 skriver vi værdierne for d, hvor d = X'-AM / i; i kolonne 4 skriver vi produktet af fd, og i kolonne 5 skriver vi værdierne fra fd 2 som vist nedenfor:

Her antages Mean at være midtpunktet for ci 9-11 dvs. 10, så afvigelserne d er blevet taget fra 10 og divideret med 3, længden af ​​ci Formlen for SD i trinafvigelsesmetode er

hvor jeg = længden af ​​c.i'erne,

f = frekvens;

d = afvigelser fra midtpunktet af ci 's fra det antagne gennemsnit (AM) i klasseinterval (i) enheder, hvilket kan angives:

Sætte værdier fra bordet

Beregningsmetoderne kan også angives på følgende måde:

Kombineret standardafvigelse ( σ com b ):

Når to sæt scoringer er blevet kombineret til et enkelt parti, er det muligt at beregne σ af den samlede fordeling fra σ'erne af de to komponentfordelinger.

Formlen er:

hvor σ 1, = SD af fordeling 1

σ 2 = SD for fordeling 2

d 1 = (M 1 - M kam )

d 2 = (M 2 - M kam )

N 1 = Antal sager i fordeling 1.

N 2 = Antal sager i fordeling 2.

Et eksempel vil illustrere brugen af ​​formlen.

Eksempel 14:

Antag, at vi får midlerne og SD'erne på en præstationsprøve for to klasser af forskellig størrelse og bliver bedt om at finde den kombinerede gruppes o .

Dataene er som følger:

For det første finder vi det

Formlen (24) kan udvides til et hvilket som helst antal fordelinger. For eksempel i tilfælde af tre distributioner vil det være

Egenskaber for SD:

1. Hvis hver variabelværdi øges med samme konstante værdi, forbliver værdien af ​​distributionens SD-værdi uændret:

Vi diskuterer denne effekt på SD ved at overveje en illustration. Tabellen (4.10) viser originalresultater på 5 studerende i en test med et aritmetisk gennemsnit på 20.

Nye scoringer (X ') er også givet i samme tabel, som vi opnår ved at tilføje en konstant 5 til hver original score. Ved brug af formel for ugrupperede data bemærker vi, at SD af scorerne forbliver ens i begge situationer.

Således forbliver værdien af ​​SD i begge situationer ens.

2. Når en konstant værdi trækkes fra hver variant, forbliver værdien af ​​SD for den nye fordeling uændret:

Eleverne kan også undersøge, at når vi trækker en konstant fra hver score, reduceres gennemsnittet med konstanten, men SD er det samme. Det skyldes, at ' d ' forbliver uændret.

3. Hvis hver observeret værdi multipliceres med en konstant værdi, multipliceres også SD af de nye observationer med samme konstant:

Lad os multiplicere hver score af den oprindelige fordeling (tabel 4.10) med 5.

Således bliver SD'en af ​​den nye distribution multipliceret med samme konstante (her er det 5).

4. Hvis hver observeret værdi er divideret med en konstant værdi, vil SD af de nye observationer også divideres med samme konstant. Eleverne kan undersøge med et eksempel:

For at konkludere, er SD uafhængig af oprindelsesændring (tilsætning, subtraktion) men afhængig af skalaændring (multiplikation, division).

Målinger af relativ dispersion (variationskoefficient):

Spredningsforanstaltningerne giver os en ide om, hvorvidt scorerne er spredt omkring deres centrale værdi. Derfor kan to frekvensfordelinger med de samme centrale værdier sammenlignes direkte ved hjælp af forskellige dispersionsmål.

Hvis for eksempel på en test i en klasse, har drenge gennemsnitsscore M 1 = 60 med SD σ 1 = 15 og piger betyder score er M 2 = 60 med SD σ 2 = 10. Det er klart, at piger, der har en mindre SD, er mere konsekvente at scorere omkring deres gennemsnitlige score end drenge.

Vi har situationer, hvor to eller flere uddelinger, der har ulige midler eller forskellige måleenheder, skal sammenlignes med hensyn til deres spredningsevne eller variabilitet. For at foretage sådanne sammenligninger bruger vi koefficienter for relativ spredning eller variationskoefficient (CV).

Formlen er:

(Variationskoefficient eller koefficient for relativ variabilitet)

V giver den procentdel, som σ er af testmiddelet. Det er således et forhold, der er uafhængigt af måleenhederne.

V er begrænset i dets anvendelse på grund af visse tvetydigheder i dens fortolkning. Den er forsvarlig, når den anvendes med forholdsvægtskalaer, hvor enhederne er ens, og der er et sandt nulpunkt eller referencepunkt.

For eksempel kan V anvendes uden tøven med fysiske skalaer - dem, der beskæftiger sig med lineære størrelser, vægt og tid.

To tilfælde opstår ved brug af V med forholdsskalaer:

(1) Når enheder er forskellige, og

(2) når M er ulige, er enhederne i skalaen ens.

1. Når enhederne er ulige:

Eksempel 15:

En gruppe på 10 årige drenge har en gennemsnitlig højde på 137 cm. med en o på 6, 2 cm. Den samme gruppe af drenge har en gennemsnitlig vægt på 30 kg. med en 3, 5 kg. I hvilket træk er gruppen mere variabel?

Opløsning:

Det er klart, at vi ikke kan sammenligne centimeter og kilo direkte, men vi kan sammenligne den relative variabilitet af de to fordelinger i forhold til V.

I det foreliggende eksempel er to grupper ikke kun forskellige i forhold til middel men også i måleenheder, som er cm. i det første tilfælde og kg. i den anden. Variationskoefficienten kan anvendes til at sammenligne gruppernes variabilitet i en sådan situation.

Vi beregner således:

Således fremgår det af ovenstående beregning, at disse drenge er cirka dobbelt så variable som i højden (11, 67 / 4, 53 = 2, 58).

2. Når midlerne er ulige, men skalaenheder er de samme :

Antag, at vi har følgende data på en test for en gruppe drenge og en gruppe mænd:

Sammenlign derefter:

(i) Udførelsen af ​​de to grupper på testen.

(ii) Variabiliteten af ​​scoringer i de to grupper.

Opløsning:

(i) Da den gennemsnitlige poengsum for en gruppe drenge er større end mænds, har drenge gruppen således givet bedre resultater af testen.

(ii) Ved sammenligning af to grupper med hensyn til variabilitet blandt scorer beregnes variationskoefficienten V af drenge = 26, 67 og V af mænd = 38, 46.

Derfor er variabiliteten af ​​scorer større i gruppen af ​​mænd. Studerende i drenge gruppe, der har et mindre CV, er mere konsekvente at scorere omkring deres gennemsnitlige score i forhold til mænds gruppe.

SD og spredningen af ​​observationer:

I en symmetrisk (normal) fordeling,

(i) Middel ± 1 SD dækker 68, 26% af scorerne.

Middel ± 2 SD dækker 95, 44% af scorerne.

Middel ± 3 SD dækker 99, 73% af scorerne.

ii) I store prøver (N = 500) er området ca. 6 gange SD.

Hvis N er ca. 100, er området omkring 5 gange SD.

Hvis N er omkring 50, er området omkring 4, 5 gange SD.

Hvis N er omkring 20, er området omkring 3, 7 gange SD

Fortolkning af standardafvigelse:

Standardafvigelsen karakteriserer karakteren af ​​fordelingen af ​​scoringer. Når scorerne er bredere spredt, er SD mere, og når scorerne er mindre spredte, er SD mindre. For at fortolke værdien af ​​måleenheden for dispersion må vi forstå, at større værdien af ​​' σ ' jo mere spredte er scorerne fra middelværdien.

Som i tilfælde af middelafvigelse kræver fortolkningen af ​​standardafvigelsen værdien af ​​M og N til overvejelse.

I følgende eksempler er de krævede værdier af σ, middel og N givet som:

Her er dispersionen mere i eksempel 2 sammenlignet med eksempel 1. Det betyder, at værdierne er mere spredte i eksempel 2 sammenlignet med værdierne i eksempel 1.

Fordele ved SD:

1. SD er stift defineret og dens værdi er altid bestemt.

2. Det er den mest anvendte og vigtige måling af dispersion. Den indtager en central position i statistikken.

3. Ligesom den gennemsnitlige afvigelse er den baseret på alle værdierne af fordelingen.

4. Her ses tegnene på afvigelser ikke, men i stedet elimineres de ved at kvadrere hver af afvigelserne.

5. Det er hovedmålingens variabilitet, da det er acceptabelt til algebraisk behandling og bruges i korrelationsarbejde og i yderligere statistisk analyse.

6. Det er mindre påvirket af udsving i prøveudtagningen.

7. Det er det pålidelige og mest præcise mål for variabilitet. SD går altid med den gennemsnitlige, som er den mest pålidelige måling af central tendens.

8. Det giver en standard måleenhed, der har sammenlignelig betydning fra en test til en anden. Endvidere er den normale kurve direkte relateret til SD

Begrænsninger:

1. Det er ikke let at beregne, og det er ikke let at forstå.

2. Det giver flere vægte til ekstreme ting og mindre til dem, der er tæt på den gennemsnitlige. Når afvigelsen af ​​en ekstrem score er kvadret giver det anledning til en større værdi.

Anvendelse af SD:

Standardafvigelse anvendes:

(i) Når det mest ønskede, pålidelige og stabile mål for variabilitet er ønsket.

(ii) Når der lægges større vægt på ekstreme afvigelser fra middelværdien.

(iii) Når korrelationskoefficienten og andre statistikker beregnes efterfølgende.

(iv) Når målene for pålidelighed beregnes.

(v) Når scorerne skal fortolkes korrekt med henvisning til den normale kurve.

(vi) Når standard scoringer skal beregnes.

(vii) Når vi vil teste betydningen af ​​forskellen mellem to statistikker.

(viii) Når variationskoefficienten, variansen mv beregnes.