Opførelse af en standardiseret test: 4 trin

Denne artikel sætter lys på de fire hovedtrin, der er involveret i opførelsen af ​​en standardiseret test. Trinnene er: 1. Planlægning 2. Forberedelse af testen 3. Prøvning af testen 4. Evaluering af testen.

Trin # 1. Planlægning:

"Testplanlægningen omfatter alle de forskellige operationer, der går i at producere testene. Ikke alene indebærer det, at der arbejdes med en oversigt eller et bord, der angiver det indhold eller de muligheder, der skal dækkes af testen, men det skal også medføre omhyggelig opmærksomhed på varens besvær, typer af emner, retning til eksaminator mv. " (Lindquist )

For standardiseret test er en systematisk og tilfredsstillende planlægning nødvendig. Efter Rosss opfattelse "sker der ikke bare gode tests, heller ikke de er resultatet af et par øjeblikke af høj inspiration og ophøjelse."

Det er testkonstruktøren, som på alle måder er ansvarlig for at give en korrekt form til sine testartikler, og hvem konstruerer testen med al bekymring og oprigtighed.

Det omfatter følgende aktiviteter:

1. Fastsættelse af målene / formålene.

2. Bestemmelse af vægtprocenten til forskellige instruktionsmål.

3. Bestemmelse af vægtning til forskellige indholdsområder.

4. Bestemmelse af varetyper, der skal medtages.

5. Forberedelse af specifikationstabellen-Blåtryk.

6. Ved at træffe beslutning om dens mekaniske aspekter som tidsvarighed, teststørrelse, samlede karakterer, trykning, bogstavstørrelse mv.

7. Giv vejledning til scoring af testen og dens administrationsprocedure.

8. Vægt til forskellige sværhedsgrader niveau af spørgsmålene skal fastsættes.

(De aktiviteter, der er specificeret i punkt 1 til 5, kræver yderligere præcisering)

1. Fastsættelse af mål / formål:

Før testets opbygning er det nødvendigt, at dets genstande formuleres. Opmærksomheden bør rettes mod testfunktionen til effektivt at måle i hvilket omfang uddannelsens mål er nået. Formålet med uddannelsen kan klassificeres på mange måder. Men hvad der end måtte være klassificeringen, skal læseplanen medføre de ændringer i barnet, der er planlagt som mål.

Prøven skal udformes på en sådan måde, at den kan påpege, i hvilket omfang målene, der har medført ændringer i barnets adfærd, er opnået gennem læseplanen, som de lærer dem.

Opmærksomheden skal også rettes mod det formål, som prøven er forpligtet til at tjene. Hvis testen er konstrueret til at klassificere eleverne, så i sin konstruktion opmærksomhed skal betales til sin evne til at klassificere. Men hvis dens formål er diagnostisk, skal det være så konstrueret, at det kan diagnosticere de enkelte studerendes individuelle vanskeligheder.

2. Bestemmelse af vægtning af forskellige undervisningsmål:

Det vigtigste skridt i planlægningen af ​​en test er at identificere de instruktionsmål. Hvert emne har et andet sæt instruktionsmål. I emnerne Science, Social Sciences og Mathematics er de vigtigste mål kategoriseret som viden, forståelse, ansøgning og færdigheder, mens de vigtigste mål i sprog er kategoriseret som viden, forståelse og udtryk.

Kendskabsmål anses for at være det laveste niveau af læring, mens forståelse, anvendelse af viden inden for videnskab eller adfærdsvidenskab anses for at være højere uddannelsesniveau.

3. Bestemmelse af vægtning til forskellige indholdsområder:

Den vigtigste aktivitet i opførelsen af ​​en præstationsprøve er at specificere en oversigt over indholdsområdet. Det angiver det område, hvor eleverne forventes at vise deres præstationer. Det hjælper med at få en repræsentativ prøve af hele indholdsområdet.

Det forhindrer også gentagelse eller udeladelse af enheden. Nu spørger spørgsmålet, hvor meget vægt der skal gives til hvilken enhed. Nogle eksperter siger det, det bør afgøres af den berørte lærer, der holder vigtigheden af ​​kapitlet i tankerne.

Andre siger, at det bør afgøres i henhold til det område, der er omfattet af emnet i tekstbogen. Generelt er det besluttet på grundlag af sider af emnet, samlede sider i bogen og antallet af elementer, der skal udarbejdes.

4. Bestemmelse af varetyper:

Elementer, der anvendes i testkonstruktionen, kan i vid udstrækning opdeles i to typer som objektiv typer og essay-typen. Til nogle instruktionsmæssige formål er objektivtypeelementerne mest effektive, mens for andre er essayspørgsmålene tilfredsstillende.

Passende varetyper skal vælges i henhold til de læringsresultater, der skal måles. For eksempel, når resultatet er skrevet, er forsyningstyperne nyttige.

Hvis resultatet er at identificere et korrekt svar selektionstyper eller genkendelsestyper er nyttige. Så det skal afgøres og planlægges på dette stadium.

LA = Langt svar

SA = Kort svar

VSA = Meget kort svar

5. Forberedelse af "BLUEPRINT" eller tredimensionelt diagram:

Forberedelse af blåtryk eller tabel af specifikation i tredimensionelt diagramindhold, objektiv og type af elementer, der angiver antallet af elementer i hver celle eller et rum. Det er bare et rammearbejde, der giver et klart billede af testens design og tjener som vejledning.

De tre dimensioner af planen består af indholdsområder i vandrette rækker og mål og former for spørgsmål i lodrette kolonner. Når først tegningen er udarbejdet, kan papirsætteren skrive / markere emnerne og udarbejde spørgeskemaet.

Et stikprøveformat af tegning er angivet nedenfor:

Bemærk:

Indsæt venligst antallet af spørgsmål inden for parentes og mærkerne uden parenteserne.

E = Essay type spørgsmål, SA = Kort svar type, VS A = Meget kort svar.

Trin # 2. Forbereder testen:

Det næste skridt efter afslutningen af ​​planen er at skrive passende spørgsmål i overensstemmelse med de brede parametre, der er beskrevet i tegningen. Man bør tage en lille blok af tegningen ad gangen og skrive de nødvendige spørgsmål.

Således skal der for hver tegningsblok, der er udfyldt, være skrevet en efter en. Når det er gjort, har vi alle de spørgsmål, der opfylder de nødvendige krav, der er fastsat i planen.

Standardiseret testskrift kræver alle former for bekymringer og overvejelser. Nok tid skal bruges til at give tanker om vægtning til indholdet og de områder, der skal dækkes.

I dette trin skal vi diskutere de specifikke regler for konstruktion af forskellige typer af testartikler.

På dette stadium er vi nødt til at forberede:

(i) Testelementerne.

(ii) Vejledningen til test af varer.

iii) anvisningerne for administration

(iv) Retningslinjerne for scoring.

(v) Et spørgsmålstegnende analysediagram.

(i) Forberedelse af testelementer:

Forberedelse af testemner er den vigtigste opgave i forberedelsestrin. Derfor skal man tage sig af med at udarbejde en testemne. Konstruktion af testartikler er ikke så let. Det er opgaven med testspecialister og eksperter. En erfaren lærer, der er tilstrækkeligt uddannet i testkonstruktion, kan udarbejde passende testartikler.

Der er visse regler og retningslinjer for konstruktion af testartikler. For denne skal man have adgang til alle disse retningslinjer og også adgang til målets taksonomi. Generelt skal testelementerne være klare, omfattende og fri for tvetydighed.

Sproget af emnerne skal vælges således, at indholdet og ikke formularen af ​​elementerne bestemmer svaret. De elementer, der har skjulte betydninger, bør ikke medtages. Opgørelsen af ​​emnerne skal ikke tilfældigt gives fra bøgerne. Alle emner af en bestemt type skal placeres sammen.

Ordforrådet, der bruges i emnerne, skal være enkelt nok til at blive forstået af alle. En regelmæssig sekvens i mønsteret af korrekte svar bør undgås. Der kan være mere end én type testemner i testen.

Prøven skal underkastes kritisk revision med tidsintervaller. Ofte vil det være ønskeligt, at der i testen indgår flere elementer end det antal, der rent faktisk er nødvendigt. I det foreløbige udkast er det bedre, hvis det dobbelte antal emner, der er nødvendige, er inkluderet.

Ved opbygningen af ​​testemnerne bør kun disse genstande ikke medtages, som understreger hukommelsen eller anerkendelsen. Varerne skal vælges således, at eleverne lærer vanen at korrelere deres viden med deres virkelige liv.

Når testemnerne er indrammet, skal de ordnes korrekt og samles i en test. Hvis der anvendes forskellige former for testartikler, skal de helst grupperes formelt. Desuden skal lette genstande gives et sted i begyndelsen, elementerne i gennemsnitlig vanskelighed i midten og vanskelige ting i slutningen.

Testelementerne kan arrangeres i rækkefølge af forventet vanskelighed. Der er selvfølgelig forskellige måder at samle spørgsmålene på, og vi kan samle de spørgsmål, der passer til vores formål og fortolkningsfortolkning.

(ii) Forberedelse af retning til testelementer:

Dette er det mest forsømte aspekt af testkonstruktionen. Generelt giver alle opmærksom på konstruktionen af ​​testartikler. Så testværktøjerne vedlægger ikke retninger med testemnerne. Men testposternes gyldighed og pålidelighed afhænger i høj grad af instruktionerne til testen.

NE Gronlund har foreslået, at testmesteren skal give en klar retning om:

1. Formålet med testningen.

2. Den tid, der er tilladt for besvarelsen.

3. Grundlaget for besvarelsen.

4. Fremgangsmåden for registrering af svar.

5. Metoder til at håndtere gætte.

Nogle gange er anvisningerne til at teste emner så tvetydige, at barnet ikke kan følge dem, og som sådan reagerer han på emnerne på en måde, som han finder passende på det tidspunkt eller blot går videre til næste emne, der efterlader det ubesvaret.

På grund af manglende klarhed i retninger vil barnet reagere forskelligt på forskellige tidspunkter, hvilket vil nedsætte testens pålidelighed.

(iii) Udarbejdelse af vejledning for administration:

En klar og detaljeret retning om, hvordan testen skal administreres, skal gives. De betingelser under hvilke testen skal administreres, når prøven skal administreres (enten i midten af ​​sessionen eller i slutningen af ​​sessionen osv.) Inden for hvilken tidsfrist det skal administreres mv er klart angives.

Hvis testen har separate sektioner, angives tidsfrister for at dække hvert afsnit. De nødvendige materialer (hvis nogen) til testen, såsom grafpapir, Logaritmebord mv. Skal nævnes.

Vejledningen skal klart angive, hvilke forholdsregler administratoren skal tage på tidspunktet for administrationen. Derfor skal passende og klar retning for testadministration udarbejdes.

(iv) Forberedelse af retning for scoring:

For at lette objektiviteten i scoring skal der gives "scoring keys". Scoringsnøgle er en udarbejdet liste over svar på et givet sæt objektiv-spørgsmål. En scoringsnøgle udarbejdes ved at notere serielt nøglen (eller det rigtige svar) på hvert spørgsmål mod hvert element.

For korte svar type spørgsmål og essay type spørgsmål skal markeringsordninger udarbejdes. Sådanne scoringsnøgler og markeringsordninger skal udarbejdes omhyggeligt. De hjælper som guider på tidspunktet for scoring af testen, og de sikrer objektivitet i scoring.

(v) Fremstilling af et spørgsmålstegnende analyse diagram:

Der kan udarbejdes et spørgsmålstegnende analysediagram, hvor hvert spørgsmål analyseres. Dette diagram viser indholdsområdet, som spørgsmålet dækker, målet (med specifikation), som det har til hensigt at måle, dets type, markeringer tildelt det, forventede sværhedsniveau og den tid, der er taget for at besvare det.

Dette diagram analyserer ikke kun elementerne, men giver os også et billede af indholdets indhold, mål, type spørgsmål og dækning af forskellige sværhedsgrader mv. Desuden giver dette os en ide om den samlede tid, der skal tages for at tage prøve. Dette diagram hjælper os med at kontrollere, om testen er udarbejdet i henhold til planen eller ej.

Trin # 3. Prøve ud af testen:

Da testen er udarbejdet af en gruppe personer og eksperter, kan det ikke være helt fejlfrit. Derfor kræver al standardisering forberedelse af en testform for testen og dens testning over en prøvepopulation.

Formålet med udprøvningen er som følger:

1. At identificere de defekte eller tvetydige genstande.

2. At opdage svagheden i testadministrationens mekanisme.

3. At identificere de ikke-fungerende eller upålitelige distraktorer i tilfælde af multiple choice tests.

4. At tilvejebringe data til bestemmelse af vanskeligheden af ​​elementer.

5. At tilvejebringe data til bestemmelse af varernes diskriminerende værdi.

6. For at bestemme antallet af elementer, der skal indgå i den endelige form af testen.

7. At fastsætte fristen for den endelige formular.

Hovedformålet med at prøve er at vælge de gode ting og afvise de fattige varer.

Prøvningen foregår i tre faser:

1. Preliminær tryout.

2. Korrekt afprøvning.

3. Endelig prøve.

1. Preliminær prøve:

Preliminær prøveudskrivning sker individuelt for at forbedre og ændre sprogproblemerne og tvetydigheden af ​​emnerne. Denne prøve udføres på 10 eller 15 personer. Arbejdernes funktionalitet overholdes. På basis af observation og individers reaktioner kan varerne forbedres og ændres samtidigt. Således er det oprindelige udkast udarbejdet og trykt eller cyklostyleret til korrekt udprøvning eller gruppeprøvning.

2. Den korrekte prøve:

Den rigtige udprøve sker på en gruppe på mindst 40 studerende / individer. Formålet er at vælge gode ting til testen og at afvise dårlige ting.

Dette trin omfatter følgende aktiviteter:

(A) Vareanalyse.

(B) Forberedelse af sidste udkast af testen.

(A) Vareanalyse:

En test skal hverken være for nem eller for vanskelig; og hvert element skal diskriminere validitet blandt de højt og lavt opnående studerende. Fremgangsmåden anvendt til at bedømme kvaliteten af ​​en vare kaldes vareanalyse.

Elementanalyseproceduren følger følgende trin:

1. Prøvepapirerne skal arrangeres fra højeste til laveste score.

2. Vælg 27% testpapirer fra højeste og 27% fra laveste ende. For eksempel hvis test administreres på 120 studerende, så vælg 32 testpapirer fra højeste ende og 32 testpapirer fra den nederste ende.

3. Bibeholde de andre testpapirer, da de ikke er nødvendige i vareanalysen.

4. Tabuler antallet af elever i den øverste og den nederste gruppe, der valgte hvert alternativ for hvert testelement. Dette kan gøres på bagsiden af ​​testpapiret, eller et separat testkort kan bruges som vist i tabel (14.1).

Som vi ved, afhænger kvaliteten eller fortjenesten af ​​en test på de enkeltpersoners ting, der udgør den. Så kun de ting, der passer til vores formål, skal bevares. Vareanalyse er en integreret del af en tests pålidelighed og validitet.

Et produkts værdi vurderes ud fra tre hovedvinkler, nemlig:

(i) Vanskelighedsindeks for varen,

ii) forskelsbehandling af varen,

(iii) Effektivitet af distraktorer.

En hypotetisk illustration:

Hvis en test administreres på 120 studerende, er 27% testpapirer fra den højeste ende 32 og 27% testpapirer fra den laveste ende er 32.

(i) Vanskelighedsindeks for varen / Vareproblemer:

Vanskelighedsindeks for varen er en vigtig del af testkonstruktionen. Hvis en bestemt genstand er for nem, svarer alle eleverne på det. Hvis alle eleverne får samme score, bliver selve formålet med testen besejret. Hvis et emne ikke kan besvares af et test, er varen enten for vanskelig eller ukonstrueret. Hvad er brugen af ​​at have sådanne ting i en test? Så det er tydeligt, at alt for lette og alt for vanskelige ting skal kasseres fuldstændigt.

Det er ønskeligt, at elementer af mellemværdighedsniveau skal indgå i en test. Ved analysen foretaget ved prøveudtræket bevarer testerne generelt varer i området fra 16% til 84% sværhedsniveau.

Vareproblemer (ID) beregnes ved hjælp af formlen.

ID = R / NX 100

hvor R = Antal test, der svarer korrekt.

N = Total Antal testede forsøgte varen.

I vores eksempel ud af 64 studerende fra både øvre og nedre grupper har 40 studerende svaret på emnet korrekt og 60 studerende har prøvet emnet. Derefter er varens vanskelighed beregnet som

Vareproblemer = 40/60 x 100 = 66, 67

Som det er sædvanligt at følge 16% til 84% regel for at overveje problemstillingen, falder vores beregnet ID inden for dette interval. Derfor har varen det rigtige sværhedsniveau. Det betyder, at hvis et emne har ID mere end 84%, så er det for nemt, hvis det er mindre end 16%, er emnet en for vanskelig vare.

(ii) Diskriminerende kraft for varen:

En genstands diskriminerende kraft (dvs. et gyldighedsindeks) refererer til den grad, som en given genstand diskriminerer blandt elever, der afviger skarpt i funktionen / funktionerne målt ved testen som helhed.

Et skøn over et vares diskriminationsindeks kan opnås ved hjælp af formlen:

hvor

RU = Antal korrekte svar fra den øverste gruppe.

RL = Antal korrekte svar fra den nederste gruppe.

N = Total Antal elever, der prøvede dem.

I vores eksempel besvarede 30 elever fra øverste gruppe varen korrekt og 10 fra den nederste gruppe svarede varen korrekt.

Således er RU = 30, Rl = 10 og N = 60

Diskriminerende indeks = (30-10) / (60/2) = 20 / 30, 67

Et diskriminationsindeks udtrykkes normalt som en decimal. Hvis det har en positiv værdi, har genstanden positiv diskrimination. Det betyder, at en større andel af de mere kyndige elever end fattige studerende fik ordningen korrekt. Hvis værdien er nul, har varen nul diskrimination.

Dette kan forekomme:

jeg. Fordi varen er for let eller for hård; eller

ii. Fordi det er tvetydigt.

Hvis flere dårlige elever end gode studerende får varen korrekt, ville man opnå en negativ diskrimination. Med et lille antal studerende kan dette være et sikkert resultat; men det kan tyde på, at varen er tvetydig eller miskyet.

Objektet med nul eller negativt diskriminationsindeks skal kasseres eller revideres. Generelt er jo højere diskriminationsindekset, desto bedre er genstanden.

(iii) Distraktors effektivitet:

En distraktor anses for at være en god distraktor, når den tiltrækker flere elever fra den lavere gruppe end den øvre gruppe.

Eksempel:

Antag i alt 40 svarbøger (både i øvre og nedre gruppe, 20 i hver).

Nedenfor gives en hypotetisk illustration, hvor asterisk angiver det korrekte svar:

I illustrationen er alternativerne A og C effektive i den forstand, at de tiltrækker flere elever fra den nedre gruppe end fra den øvre gruppe. Men alternativ D er en dårlig distraktor, fordi den tiltrækker ingen og derfor er ubrugelig. Varen har kun valgmuligheder, og chancerne for succes ved blot gætte er forbedret. Alternativ E er også fattig, fordi den tiltrækker en højere andel af de gode end de dårlige elever.

Forfatteren skal spørge sig selv:

"Hvorfor blev de lysere studerende tiltrukket af E? Var det på grund af tvetydighed? Var det fordi der var to lige korrekte svar? "Kort sagt, denne genstand bør revideres ved at ændre alternativerne D og E.

(B) Forberedelse af det endelige udkast til testen:

Efter elementanalyse beholdes kun gode genstande med passende vanskelighedsniveau og med tilfredsstillende diskriminerende kraft, og disse elementer udgør den endelige test. Derfor vælges gode varer ud af det store antal varer.

Nogle af dem kan ændres, og det ønskede antal elementer er valgt til det endelige udkast ifølge blåtrykket. Emner er arrangeret i sværhedsgrad i det endelige udkast. Den tid, der kræves for testen, bestemmes. Nu administreres testen til en stor repræsentativ prøve, og testpapirerne bedømmes.

3. Final Try-out:

Endelig udprøve udføres på en stor prøve på ca. 400 personer til vurdering af pålidelighed og validitet af testen. Dens formål er at bestemme varigheden af ​​testen også. Formålet med denne prøve er at identificere defekter og mangler ved testemner. Under elementanalysen kasseres for nemme og for vanskelige emner. Kun elementer af gennemsnitlig sværhedsgrad er inkluderet eller beholdt.

Næsten alle forholdsregler i try-out lest skal tages under administration af den endelige test. Afsluttede svarark skal scoret ved hjælp af scoringsnøglen, og scorerne skal tabuleres for at give det til statistisk behandling.

Trin # 4. Evaluering af testen:

Standardisering og evaluering af testen sker på følgende måde:

1. Den endelige form af testen er trykt. Svararket udskrives også.

2. Den tid, der kræves for prøven, bestemmes ved at tage gennemsnit på tre elever, når de skal svare på prøven. De elever, der er valgt til formålet, repræsenterer tre grupper - lyse, gennemsnitlige og under gennemsnittet.

3. Instruktion til de personer, der skal administrere testen, udarbejdes og udskrives.

4. Scorerne er tabeller, og forskellige målinger af centrale tendenser betyder, median og mode og målinger af variabilitets-standardafvigelse, kvartilafvigelse mv. Er fundet ud af.

Partituret er tegnet på et grafark for at sammenligne normaliteten af ​​fordelingen og tegne og give for at få forskellige percentile score. Afledte scoringer som T-score og Z-score mv er anslået.

Normer som aldersnormer, klassenormer, kønnormer, landdistrikterne-bynormer mv. Beregnes som pr. Krav.

5. Gyldigheden af ​​testresultaterne estimeres ved at korrelere testresultaterne med et andet kriterium. Konstruktionsgyldigheden kan findes ved faktoranalyse. Forskellige metoder til bestemmelse af validitet er blevet diskuteret i separat enhed.

6. Ved vurdering af nybygget test estimeres pålideligheden også. I tilfælde af to parallelle former kan vi beregne pålideligheden ved at korrelere scorerne på disse to parallelle former.

Hvis parallelle former ikke er udarbejdet, kan pålideligheden bestemmes ved split-halve metode eller ved rationel ækvivalens. Prøven kan læses, og pålideligheden kan estimeres ved test-retest-metode.

7. Endelig skal vi vurdere, hvor langt en test kan bruges fra administration, scoring, tid og økonomi synspunkt. Testen skal indeholde percentile normer, standard score normer, aldersnormer og klasse normer, som vil lette fortolkningen af ​​scoringer.