Teknikker, der anvendes i statistik

I denne artikel vil vi diskutere om nogle af statistikkerne. Nogle af teknikkerne er: 1. Målet med central tendens 2. Variabilitet 3. Sandsynlighed 4. Frekvensfordeling 5. Tidsserie.

Målet med central tendens:

Gennemsnit:

Enhver statistisk foranstaltning, der giver en ide om positionen af ​​det punkt, som andre observationer klynge kaldes et mål for central tendens. Den mest anvendte måling er 'Gennemsnit' eller det aritmetiske gennemsnit.

Daglige indtægter for to arbejdere i en uge er som under:

1. arbejdstager Rs 70, 50, 100, 90, 50 Gennemsnitlig indtjening = Rs 76

2. medarbejder Rs 200, 250, 50, 300, 150 Gennemsnitlig indtjening = Rs 190

Således kan vi fra ovenstående eksempel konkludere, at den gennemsnitlige arbejdstager i gennemsnit tjener mere end den første. Formålet med at beregne et gennemsnit - som man let kan se - er at erstatte observationsserien med en enkelt værdi, som anses for at være repræsentativ for alle observationer. Fra ovenstående eksempel kan det bemærkes, at det aritmetiske gennemsnit er en værdi nær midten, og nogle af observationerne er større end det, mens nogle er mindre.

Det kan således siges, at det aritmetiske gennemsnit af observationerne på en variabel defineres som summen af ​​observationer divideret med antallet af observationer.

For den første medarbejder er det aritmetiske gennemsnit beregnet som under:

(Rs 70 + 50 + 100 + 90 + 50) ÷ 5 = Rs 76

Geometrisk middel (GM) Geometrisk Middel af en gruppe observationer er defineret som produktets nth root af alle observationer. Lad os antage, at observationerne er x 1, x 2, x 3, ..., x n .

GM kan beregnes som under:

Dette kan beregnes ved hjælp af en logbord.

Mode:

Mode defineres som værdien af ​​variablerne eller observationer, der forekommer hyppigst. Hvis observationerne f.eks. Er -2, 9, 6, 2, 8, 2, 2, 7, 2 og 3, ses tilstanden som 2, hvilket er sket for det maksimale antal gange, dvs. 5 gange.

median:

Median er værdien af ​​den mellemste variabel, når observationerne er arrangeret i stigende eller faldende rækkefølge. Det er indlysende, at halvdelen af ​​værdierne vil være mindre end medianen, og halvdelen af ​​værdierne bliver større. Således, hvis observationerne er 3, 9, 6, 4, 5, 7 og 10, regnes værdierne i en stigende rækkefølge 3, 4, 5, 6, 7, 9 og 10, at medianværdien er den 4. observation og er lig med 6.

Men hvis antallet af observationer er ens, er der to mellemste værdier, og det er sædvanligt at tage det aritmetiske gennemsnit af disse to værdier. F.eks. Hvis observationen 10 udelades fra ovenstående variabler, er der to middelværdier 5 og 6, og medianværdien er 5 + 6 ÷ 2 = 5, 5.

De andre vigtige statistiske værktøjer til måling og analyse af data og elementet af variabilitet deri omfatter beregning af (i) rækkevidde, (ii) halvinterkvartilstand, (iii) gennemsnitlig absolut afvigelse, (iv) standardafvigelse ) Frekvensfordeling (både symmetrisk og asymmetrisk).

Symmetrisk fordeling er kendetegnet ved eksistensen af ​​en symmetrilinie, som deler histogrammet i to dele, og en del er spejlbilledet af det andet. Imidlertid er de fleste af distributionerne inden for handel og økonomi ikke af denne type. Asymmetriske udbredelser er også kendt som skæv fordeling. Skewness betyder manglende symmetri og skæv fordeling er kendetegnet ved en længere hale på den ene side af histogrammet.

Målevariabilitet:

Aritmetiske og geometriske midler eller medier tjener som grundlag for at sammenligne to eller flere populationer eller observationer. Men de øvrige mål for variabilitet eller afvigelse er også vigtige for at udtrykke i hvilket omfang observationerne afviger fra hinanden. I statistik er dispersion synonymt med variabilitet eller afvigelse.

Følgende er de vigtige mål for variabilitet:

Rækkevidde:

Forskellen mellem de største og mindste værdier af et sæt observationer kaldes 'interval'.

Semi-Inter kvartilområde :

Forskellen mellem værdien af ​​observationerne i 2. og 3. kvartil kaldes semi-inter-kvartilområdet. Dette fjerner indflydelsen af ​​meget lave og meget høje værdier af observationerne, som er få i antal.

Gennemsnitlig afvigelse:

Gennemsnitlig afvigelse betyder variationen af ​​observationerne fra det aritmetiske gennemsnit af observationerne.

Eksempel: Observationer er x 1, x 2 ... x n og det aritmetiske gennemsnit er x.

Formlen er:

og derfor er gennemsnittet

Men Σ (x 1 - x̅) = 0, uanset hvad værdien er af x 1, x 2, ... .x n

Derfor kan formlen Σ (x i - x̅) ikke bruges som et mål for variabilitet. Denne vanskelighed kan undgås, hvis tegnene (+ eller -) ignoreres. Dette er logisk, da tegnet på en bestemt afvigelse x i - x merely blot angiver, om observationen x i, er til venstre for x eller til højre, og dette har ingen relevans ved beregning af afvigelserne fra det centrale punkt (x), af enhver observation.

Standardafvigelse:

Afvigelse af observationerne fra deres aritmetiske gennemsnit (x) kan være positiv (+) eller negativ (-). I statistikker indikerer tegnene på afvigelser fra det aritmetiske middel kun observationsretningen fra den centrale tendens (x Tj) og dermed ignoreret. De negative (-) tegn blandt afvigelsen fra x kan også undgås, hvis i stedet for at tage de absolutte værdier er kvadraterne af afvigelserne taget som under:

Da måleen for variabilitet skal være i samme enhed som de oprindelige observationer, beregnes standardafvigelsen med følgende formel:

For en frekvensfordeling, med x 1 x 2, ..., x n som middelværdierne af klasserne og f 1 f 2, ..., f n som frekvenserne, beregnes standardafvigelsen (SD) ved følgende forbedring af ovenfor formel:

Standardafvigelsen er langt den mest anvendte måling af variabilitet i statistikker. Det har mange egenskaber, der gør det til det mest foretrukne mål i statistiske problemer.

Eksempel:

IQ niveauer af fem Business Management studerende er som under:

Derfor er standardafvigelsen: 13, 22

13.22 er standardafvigelsen udtrykt i de samme enheder som observationerne selv. Værdien 13.22 er et punkt på samme numeriske skala.

Ovennævnte standardafvigelse er blevet udarbejdet af forskellene af en population på 5 studerende. I praksis kan standardafvigelse imidlertid ofte ikke beregnes fra befolkningen, da størstedelen af ​​befolkningen er så stor, at prøven normalt tages med henblik på beregning af afvigelsen.

For prøvedata måles variabiliteten ved stikprøvevariation, og standardafvigelsen beregnes ved anvendelse af følgende formel:

Det skal bemærkes, at da stikprøvedataene er blevet brugt, angiver 'n' stikprøvestørrelsen i stedet for 'N', der betegner befolkningsoverholdelse.

Begreb om sandsynlighed:

Ofte i vores daglige liv forudsiger vi visse fremtidige begivenheder med sådanne ord som - dette vil sandsynligvis ske ", " sandsynligheden for dette er meget høj ", eller" dette vil sandsynligvis forekomme "med en vis vaghed i sådanne udsagn. Disse udsagn er i vid udstrækning subjektivt og afhænger hovedsageligt af vores evne til at analysere lignende situationer i fortiden. Betydningen af ​​begrebet sandsynlighed for en begivenhed og nogle måder at måle det med statistiske værktøjer på er stor for de kommercielle banker.

Mens lånet gives til en kunde, vil banken gerne vide sandsynligheden for misligholdelse af den nævnte kunde, som måles ud fra sandsynlighedsundersøgelsen ved hjælp af de statistiske beregninger. Selv om det er ret vanskeligt at definere sandsynlighed nøjagtigt på et elementært niveau, kan man bestræbe sig på at forudsige det samme ved at bruge teknikkerne for tilfældigt eksperiment og frekvensdefinition.

Tilfældigt eksperiment betyder et forsøg, hvis alle mulige resultater er kendt, og som kan gentages under identiske betingelser, men præcis forudsigelse af resultatet er umuligt. Prisen på en vare på forskellige dage kan betragtes som resultater af et tilfældigt forsøg. Resultaterne vil normalt betegnes af E 1, E 2, E 3 ..., E n og det antages, at de er endelige i antal.

Frekvensfordeling:

Hvis resultatet E1 forekommer r gange, når det tilfældige eksperiment gentages n gange, er sandsynligheden for E1 defineret ved forholdet 'r / n', idet antallet af gentagelser øges på ubestemt tid. Sandsynligheden er således defineret som en grænse for relativ frekvens, når eksperimentet gentages et uendeligt antal gange.

Tidsserier:

En række observationer på forskellige tidspunkter på en variabel - som er afhængig af tiden - udgør en tidsserie. Således giver sådanne serier af observationer ændringer eller variationer af en mængde over en periode og kaldes ofte historiske eller kronologiske data. For denne type data er en af ​​variablerne tid, som er repræsenteret af 't' og den anden, som er afhængig af, at tiden er repræsenteret af 'Yt.'

Eksempelvis udbytte af afgrøde i forskellige årstider, produktion af stål i forskellige måneder, kvartalsvis eksport af te, salg af is i forskellige måneder af året mv. Alle ovennævnte eksempler henviser til nogle økonomiske eller erhvervsmæssige aktiviteter, og en række observationer om sådanne variabler kaldes normalt økonomiske tidsseriedata. Et andet eksempel på tidsseriedata er nedbør i tommer på forskellige dage af året.

Det er således klart, at enhver variabel, som afhænger af tiden, danner tidsseriedataene. Værdifulde konklusioner, der trækkes af de interesserede parter som erhvervslivet, bankfolk, industrifolk mv. Fra tidsserierne fører til trendmåling fra dataene, som påvirker deres beslutninger betydeligt.