4 væsentlige kriterier for en god test

Denne artikel kaster lys på de fire væsentlige kriterium for en god test. Kriteriet er: - 1. Pålidelighed 2. Gyldighed 3. Objektivitet 4. Brugbarhed.

Kriterium # 1. Pålidelighed:

Ordbogen betyder pålidelighed er konsistens, afhængighed eller tillid. En måleprocedure er pålidelig i det omfang gentagen måling giver ensartede resultater for den enkelte.

En test anses for at være pålidelig, hvis den giver konsistente resultater i sin successive administration. Så ved pålidelighed af en test mener vi, hvor påliteligt eller troligt testen er. For at udtrykke på en generel måde, hvis et måleinstrument måler konsekvent, er det pålideligt.

Når en test er pålidelig, vil score, der foretages af gruppemedlemmerne ved retest med samme test eller med alternative former for samme test, afvige meget eller slet ikke fra deres oprindelige værdier.

Eksempel 1:

Hvis et vidne giver den samme erklæring om et spørgsmål, når han bliver spurgt igen og igen af ​​en advokat i retten, sætter vi tillid til sin erklæring og tager hans erklæring til at være pålidelig.

Eksempel 2:

Hvis et ur forbliver 10 minutter sent hver dag i forhold til den hindustanske tid så kan vi sige, at uret er et pålideligt instrument.

Eksempel 3:

Antag, at vi beder Amit anmelde sin fødselsdato. Han rapporterer det til 13. juli 1985. Efter et stykke tid stillede vi det samme spørgsmål og han rapporterede det samme dvs. 13. juli 1985.

Vi kan stille spørgsmålet igen og igen, og hvis svaret er det samme, mener vi, at Amits erklæring er en pålidelig.

Definitioner:

1. Thorndike:

Det er konsistensen af ​​en test, som den måler, hvad der skal måles. Testpålidelighed anses normalt som den grad, hvorpå testen er fri for kompenserende fejl.

2. Gronlund og Linn:

Pålidelighed refererer til målingens overensstemmelse - det vil sige, hvor ensartede testresultater eller andre evalueringsresultater er fra en måling til andre.

3. Anastasi:

Pålidelighed refererer til sammenhængen i score opnået af de samme individer, når de blev undersøgt med samme test ved forskellige lejligheder eller med forskellige sæt af tilsvarende elementer eller under variable undersøgelsesbetingelser.

4. Davis:

Graden af ​​relative præcisioner ved måling af et sæt testpoints er defineret som pålidelighed.

5. Guilford:

Pålidelighed er andelen af ​​den ægte varians i opnåede testresultater.

Fra ovenstående diskussion blev det klart, at en tests pålidelighed betyder, i hvilket omfang testen giver det samme resultat ved successiv administration på samme population. Andre forhold forbliver konstant, hvis den samme test administreres på samme population ved to forskellige lejligheder, og de score, der opnås af enkeltpersoner ved begge lejligheder, forbliver mere eller mindre ens, testen siges at være pålidelig.

Troværdigheden af ​​en test forsøger at besvare følgende spørgsmål:

(i) Hvordan ville det være elevernes score, hvis de får samme test ved to forskellige lejligheder?

(ii) Hvordan vil scorerne variere, hvis der vælges en anden stikprøve af tilsvarende poster?

(iii) Hvordan vil scorerne variere, hvis prøven bliver scoret af en anden scorer?

(iv) Hvordan vil scorerne variere, hvis prøven bliver scoret af den samme scorer på forskellige tidspunkter?

Karakteristik af Pålidelighed:

Pålidelighed har følgende egenskaber:

(i) Et estimat på pålidelighed refererer altid til en bestemt type konsistens.

(ii) Det refererer til nøjagtigheden eller præcisionen af ​​et måleinstrument.

(iii) Pålidelighed refererer til testresultaterne, ikke selve testen.

(iv) Det er koefficienten for intern konsistens.

(v) Pålideligheden af ​​et sæt måling er logisk som andelen af ​​variansen, som er sand varians.

(vi) Det er målet for variabel fejl eller tilfældighedsfejl eller målefejl.

(vii) Pålidelighed er et spørgsmål om grad. Det findes ikke i det hele eller ikke-baserede.

(viii) Pålidelighed sikrer ikke, at en test er gyldig eller sandfærdig eller hensigtsmæssig.

(ix) Pålidelighed er en nødvendig, men ikke tilstrækkelig betingelse for gyldighed. Lav pålidelighed kan begrænse graden af ​​gyldighed, der opnås, men høj pålidelighed giver ingen garanti for en tilfredsstillende grad af validitet.

(x) Pålidelighed er først og fremmest statistisk karakter i den forstand, at de opnåede resultater ved to på hinanden følgende lejligheder er korreleret med hinanden. Denne korrelationskoefficient kendes som selvkorrelation, og dens værdi kaldes 'pålidelighedskoefficienten'.

Pålidelighed og fejl i måling:

Definitionerne af pålidelighed kan grupperes under tre overskrifter:

(i) Empirisk,

(ii) Logisk og

(iii) teoretisk

(i) Empirisk:

De empiriske definitioner af pålidelighed refererer til omfanget af sammenhængen mellem to sæt scoringer på samme test administreret på det samme individ ved forskellige lejligheder.

(ii) Teoretisk:

Den teoretiske betydning refererer til konsistens eller præcision af testresultater. Det betyder, at en test score er pålidelig.

(iii) Logisk:

Den logiske betydning af pålideligheden refererer til målefejl.

Følgende illustration kan fortsætte med at forstå begrebet pålidelighed og fejlmålinger:

For eksempel sikrer Mr. Rohit 52 i en mental test. Hvad betyder 52? Taler det om hans sande evne? Er det hans sande score? Rohit har muligvis sikret 52 ved blot chance. Det kan så ske, at Rohit ved en tilfældighed kendte 52 elementer af testen, og hvis varerne var lidt anderledes, ville han ikke have sikret denne score.

Alle disse spørgsmål er relateret til en kendsgerning, at måling indebærer nogle slags fejl, dvs. personlige, konstante, variable og fortolkende fejl. Denne fejl kaldes som målefejl. Så samtidig med at der bestemmes pålidelighed af en test, skal vi tage højde for mængden af ​​fejl, der er til stede ved måling.

Når pålidelighedskoefficienten er perfekt (dvs. 1, 00), bliver målingen nøjagtig, og den er fri for alle slags fejl. Men måling på alle områder indebærer en slags fejl. Derfor er pålideligheden aldrig perfekt.

En score på en test kan betragtes som et indeks for sand score plus målefejl.

Total score eller Faktisk opnået score = True Score + Error Score

Hvis en score har en stor komponent af 'sande score' og en lille fejlkomponent, er den høj; og omvendt, hvis en test score har en lille komponent af 'true score' og stor 'fejl' komponent, er dens pålidelighed lav.

Relationerne mellem den faktiske opnåede score, sande score og fejl kan udtrykkes matematisk som følger:

X = X + e

hvor X = opnået score for en person på en test.

X = sand score af samme person

e = de variable (chance) fejl.

Målefejl:

Sand score er gennemsnittet af de opnåede resultater på et uendeligt antal parallelle former for en test. Hver opnået score vil enten være mere eller mindre end den sande score. Afvigelserne fra opnåede score fra de sande score kaldes "Målefejl".

Nogle gange må målefejlene være mindre og nogle gange mere. Andre ting er lige, mindre målefejlene, desto større måles pålideligheden.

Standardfejl ved måling:

Måleringsfejlene (dvs. variationen af ​​opnåede scoringer fra den sande score) fordeles normalt og standardafvigelsen af ​​disse variationer (eller målefejl) betegnes som "standardfejl i måling".

Vi kan finde ud af Standardfejl for måling (SE af måling), når pålidelighedskoefficienten og standardafvigelsen for fordelingen er angivet.

Formlen til beregning af standard fejlmåling er som følger:

hvor σ sc = SE af en opnået score

σ 1 = standardafvigelsen af ​​testresultater

r 11 = pålidelighedskoefficienten for den samme test.

Eksempel 4:

I en gruppe på 300 universitetsstuderende er pålidelighedskoefficienten for en Aptitude Test i matematik 0, 75, testen M er 80 og SD af scoringsfordelingen er 16. John opnår en score på 86. Hvad er SE af denne score ?

Opløsning:

Fra ovenstående formel finder vi det

og oddsene er omtrent 2: 1, at den opnåede score af en person i gruppen på 300 ikke går glip af den sande værdi med mere end ± 8 point (dvs. ± 1 SE sc ). .95 konfidensintervallet for Johns sande score er 86 ± 1, 96 x 8 eller 70 til 102.

Generelt for hele gruppen af ​​300 studerende, kan vi forvente, at ca. 1/3 af deres score er fejl med 8 eller flere point og 2/3 for at være fejl med mindre end dette beløb.

Kriterium # 2. Gyldighed:

Ordbogen betyder gyldighed er "godt baseret", "effektiv", "lyd". Det refererer til "sandfærdighed". Således er alt, hvad der er sandfærdigt, velbaseret og som tjener det rigtige formål, gyldigt.

Hver test har visse mål i sig selv. Den er konstrueret til et bestemt formål, og det er gyldigt til det formål. Hvis en test måler, hvad den har til hensigt at måle, siges det at være gyldigt. Gyldigheden giver en direkte kontrol af, hvor godt testen opfylder sine funktioner. Gyldighed er den første forudsætning for at en test bliver universel.

Pålidelighed kan være nødvendig, men ikke en tilstrækkelig betingelse for gyldighed. En test kan ikke være gyldig, medmindre den er pålidelig. Det kan være pålideligt, men kan ikke fortælles. En tests relevans vedrører testforanstaltningerne og foranstaltningernes proces.

Kort sagt kan vi sige, at en test er beregnet til at betjene forudsigelsesfunktionen, og dermed er det værd eller gyldighed, afhænger af, i hvilket omfang det lykkes at estimere præstationen i nogle typer af virkelige situationer.

Eksempel 5:

Antag et vidne giver en erklæring for dommeren i en domstol. Hvis han gentager den samme sætning igen og igen på efterfølgende krydsundersøgelser eller krydsforespørgsler, skal han kaldes som et pålideligt vidne.

Ingen tvivl om, at hans erklæring kan være rigtig eller forkert. Når hans erklæring er sandt, siges han at være et gyldigt vidne. Men hvis hans erklæring er konsekvent forkert, selvom han er pålidelig, men ikke gyldig.

Eksempel 6:

Hvis et ur forbliver 10 minutter fremad end 'standard tid', er det et pålideligt tidsstykke. Fordi det giver konsekvent resultat hver dag med 10 minutter hurtigt. Vores formål er at kende tiden korrekt, og vi kunne ikke vide det. Så selve formålet er ikke tjent. Således vil det ikke være gyldigt som bedømt af 'Standard tid'.

Det er således fundet, at en test kan være pålidelig, men det kan ikke være gyldig. Dog er gyldige foranstaltninger eller test altid pålidelige. En test, der er gyldig til et givet formål, kan ikke være gyldigt til et andet formål.

En prøve, der er forberedt til at måle computerens færdigheder i matematik, kan kun være gyldig til det formål, men ikke til måling af matematisk begrundelse. Således refererer validitet til selve formålet med testen.

Definitioner:

Anne Anastasi:

Skriver "validiteten af ​​en test vedrører hvad testen måler og hvor godt det gør det."

Rummel:

"En evalueringsenheds gyldighed er i hvilken grad det måler, hvad det er beregnet til at måle."

FS Freeman:

"Et gyldighedsindeks viser de grader, som en test måler, hvad den påtænker at måle i sammenligning med accepteret kriterium."

LJ Cronbach:

"Gyldighed er i hvilket omfang en test måler, hvad den påtænker at måle."

EF Lindquist:

Gyldighed er nøjagtigheden, hvormed den måler det, der er beregnet til at måle, eller i hvilken grad det nærmer sig infallibility ved at måle, hvad den påtænker at måle.

Fra den foregående diskussion formes vi, at validitet refererer til "selve testens formål", og hvis formålet er opfyldt, skal testen anses for at være gyldig. Så en prøve skal være gyldig, man skal gøre det job, det ønskede at gøre.

Begrebet validitet af en test er derfor primært et problem for testens "grundlæggende ærlighed". Ærlighed i den forstand at gøre, hvad man lover at gøre. For at være præcis refererer validitet til, hvor godt et værktøj måler, hvad det har til hensigt at måle.

Gyldighedens art

1. Gyldighed refererer til sandhed eller hensigtsmæssighed af testresultater, men ikke til selve instrumentet.

2. Gyldighed er et spørgsmål om grad. Det eksisterer ikke på en helt eller anden basis. Et instrument designet til at måle en bestemt evne kan ikke siges at være cither helt gyldig eller slet ikke gyldig. Det er generelt mere eller mindre gyldigt.

3. Det er et mål for 'konstant fejl', mens pålideligheden er måleen for 'variabel fejl'.

4. Gyldighed sikrer pålideligheden af ​​en test. Hvis en test er gyldig, skal den være pålidelig.

5. Gyldighed er ikke af forskellige typer. Det er et ensartet koncept. Det er baseret på forskellige typer beviser.

6. Der er ikke sådan noget som generel gyldighed. En test er gyldig til et eller andet formål eller en situation, men den er ikke gyldig til andre formål. Med andre ord er et værktøj gyldigt til et bestemt formål eller i en bestemt situation; det er ikke generelt gældende.

For eksempel kan resultaterne af en ordforrådstest være yderst gyldige for at teste ordforråd, men kan ikke være så meget gyldigt for at teste kompositionens evne til den studerende.

Kriterium # 3. Objektivitet:

Objektivitet er den vigtigste egenskab ved en god test. Det er en forudsætning for både validitet og pålidelighed. En tests objektivitet betyder den grad, som forskellige personer scorer giver, det samme resultat.

CV god (1973):

CV Good (1973) definerer objektivitet ved test er "i hvilket omfang instrumentet er fri for personlig fejl (personlig bias), der er subjektivitet hos scorerens side."

Gronlund og Linn (1995):

"Testets objektivitet refererer til, i hvilken grad lige så gode scorere opnår de samme resultater."

Det kan således siges, at en test anses for objektiv, når det gør det muligt at eliminere scorerens personlige mening og fordomme.

Objektiviteten af ​​en test refererer til to aspekter, nemlig:

(i) Objektivets objektivitet og

(ii) Scoringens objektivitet.

(i) Objektivets objektivitet:

Objektivets objektivitet betyder, at varen skal kræve et bestemt enkelt svar. Objektive elementer kan ikke have to eller flere svar. Når spørgsmålet er angivet forskelligt, vil forskellen i scoring forekomme.

For eksempel:

"Forklar begrebet personlighed."

Her scorer de scorere, der afgives, i høj grad, fordi spørgsmålet ikke tydeligt angiver arten af ​​det korrekte svar, der forventes.

Her kan barnet skrive noget vedrørende spørgsmålet. Hvis svaret bedømmes af forskellige eksaminatorer, ville varemærkerne helt sikkert variere.

Tvetydige spørgsmål, mangel på korrekt retning, dobbelt tønde spørgsmål, spørgsmål med dobbelt negativer, brede essay type spørgsmål osv. Har ikke objektivitet. Så meget omhu skal udøves under udformningen af ​​spørgsmålene.

(ii) Scoringens objektivitet:

Et værktøj er objektivt, hvis det giver den samme score, selvom forskellige scorere scorer varen. Objektivitet i scoring kan således betragtes som konsistens i scoring af forskellige scorers.

Sædvanligvis finder vi i faktiske situationer, at scorerens indfald eller fordomme påvirker markeringen. Spørgsmålene, der blev stillet om visse emner, som scorer har en tilbøjelighed til, kan hente flere karakterer end de andre spørgsmål.

Denne type irrationelle temperament til scoringssystem er en slags sin subjektive behandling af pensum, som igen påvirker evalueringsprocessen. Derfor skal objektivitet i evaluering sikres for nøjagtig evaluering.

Samtidig behøver subjektivitet ikke fordømmes og udelukkes helt, da det er sådan, hvordan de fleste evalueringer i virkeligheden foretages. Subjektiv vurdering baseret på omhyggelig observation, ufortyndet og upartisk tænkning og logisk analyse af situationer og fænomener kan også give en nøjagtig vurdering. Denne form for disciplinær subjektivitet kan spille en vigtig rolle, selv i en skolesituation.

Kriterium # 4. Brugervenlighed:

Usability-grad, som evalueringsværktøjet kan bruges til af testbrugerne.

Vi har nu læst de tre hovedkriterier for en god test: Gyldighed, pålidelighed og objektivitet. Et andet vigtigt kendetegn ved et værktøj er dets brugbarhed eller anvendelighed. Mens du vælger evalueringsværktøjer, skal man kigge efter bestemte praktiske overvejelser som helhed, brugervenlighed og scoring, let fortolkning, tilgængelighed af sammenlignelige former og omkostninger ved testning.

Alle disse overvejelser medfører, at en lærer bruger evalueringsværktøjer, og sådanne praktiske overvejelser omtales som "brugbarhed" af et evalueringsværktøj. Brugbarhed betyder med andre ord, i hvilken grad evalueringsværktøjet kan anvendes af læreren og skoleledere.

(i) Forståelighed:

Testelementerne skal være fri for tvetydighed. Retningen til at teste emner og andre retninger til testen skal være klar og forståelig. Retningslinjerne for administration og anvisningerne til scoring skal tydeligt fremgå, så man let kan forstå og følge dem. Desuden skal proceduren for testadministration, scoring og scorefortolkning være inden for forståelsen af ​​testbrugeren.

ii) Behov for administration:

Det refererer til den lethed, hvor en test kan administreres. Hver test har sine egne betingelser for administration. Mens du vælger en test, skal man vælge en, fra en samling af tests, som kan administreres uden meget forberedelse og vanskeligheder.

en. Nem administration indeholder klare og koncise instruktioner til administration. Så, for at en test er let administreret, skal anvisningerne til administrator og retning til smagen være lette, klare og komplette.

b. Tiden er også en meget vigtig faktor. For maksimal administration i skolerne er det sædvanligt, at en prøve skal tages inden for en normal klasseværelse.

(iii) Let scoring:

En test for at kunne bruges bedre skal have let scoring. Dens scoringsnøgle skal være klar og let kan vurderes. Sommetider er stederne øremærket på højre side af spørgsmålene for at give svar.

I nogle tilfælde gives der svar på separate ark. En ideel test kan scoreres af nogen eller endda af en maskine, der er forsynet med en scoringsnøgle. Lige mærker skal tildeles til hvert element i testen for at gøre scoringen lettere.

Ifølge gennemførligheden kan cither håndscoreringsindretninger eller maskinskåringsindretninger være tilvejebragt.

iv) fortolkningsfortolkning:

Hvis de opnåede testresultater let kan forstås og fortolkes, siges en test at være god. Til dette formål skal testmanualen give fuldstændige normer til fortolkning af scoringer, såsom aldersnormer, lønnormer, percentile normer og standard score normer. Normerne letter tolkning af testresultater.

(v) Forberedelse af testen:

Prøven skal have en god getup. Dette skal være godt og attraktivt udseende. Bogstaverne skal ikke være unødigt for små eller for store. Kvaliteten af ​​det anvendte papir, typografi og trykning, bogstavstørrelse, mellemrum, billeder og diagrammer, binding, plads til elevernes svar mv skal undersøges.

(vi) Prøvens omkostninger:

Prøven bør ikke være for dyr. Omkostningerne bør reduceres i muligt omfang, så det kan bruges bredt.