Krav til industrielle forudsigere: Gyldighed og pålidelighed

De to vigtigste krav til enhver forudsigelse er validitet og pålidelighed. I den industrielle indstilling eksisterer forskellige typer eller typer af validitet, selvom den mest foretrukne hedder prediktiv validitet. Der er også forskellige typer pålidelighedsforanstaltninger. Bekymringen med pålidelighed og validitet er ikke begrænset til forudsigere, men gælder også kriterier.

Gyldighed:

Gyldigheden af ​​en prædiktor kan generelt defineres som den grad, forudsigeren opnår bestemte mål for brugeren ved at måle, hvad der skal måles. Den specifikke type af involveret gyldighed afhænger således af brugerens særlige formål i enhver situation.

Predictiv gyldighed:

Formålet med brugeren er at anvende sit måleinstrument til at forudsige fremtidige præstationer for medarbejdere på en anden variabel (kriterium). Prediktiv validitet etableres statistisk gennem korrelation og regression. Den vigtige forskel på prædiktiv validitet er en af ​​en tidsdement. Predictor score opnås på enkeltpersoner på et tidspunkt (f.eks. Lejeperioden) og kriterium scores opnås på et senere tidspunkt (f.eks. I slutningen af ​​seks måneder).

Det resulterende forhold repræsenterer således virkelig instrumentets "forudsigelige" kraft. Prediktiv validitet er den vigtigste type validitet i udvælgelsen, da det er den eneste type, der virkelig duplikerer udvælgelsessituationen. Et andet navn, der undertiden bruges til prædiktiv validitet, er opfølgningsgyldighed.

Samtidig gyldighed:

Målet her skal i det mindste i teorien være at estimere medarbejdernes nutidige ydeevne på nogle kriterieforanstaltninger fra scoringer på forudsigeren. Samtidig validitet er også etableret ved brug af korrelations- og regressionsteknikker, men uden tidsforsinkelse mellem opnåelse af forudsigelses- og kriteriumresultater. En stikprøve af nuværende medarbejdere bruges til at fastslå forudsigelseskriteriumforholdet, og derefter kan den resulterende regression anvendes ved at opnå forudsigelsesscores på de resterende jobholdere.

Med andre ord er vi interesserede i at forudsige den nuværende status for mennesker, ikke deres status på et senere tidspunkt. Det er yderst vigtigt at påpege, at høj samtidig gyldighed ikke sikrer høj prædiktiv validitet. Desværre er samtidig gyldighed for ofte anvendt i industrien som en erstatning for prædiktiv validitet.

Ledelsen er til tider uvillig til at vente på den tid, der kræves af den prædiktive metode, og kan ikke indse, at nuværende medarbejdere kan repræsentere en stort set forskellig befolkning af arbejdstagere fra jobansøgere. Arbejdstagere, der i øjeblikket er ansat, har overlevet screening i både ansættelse og kontinuitet, og de fattige arbejdstagere, der blev ansat, kan have forladt enten frivilligt eller på anmodning. Dette gør det meget vanskeligt at retfærdiggøre generalisering af samtidige validiteter i en prædiktiv validitetssituation.

Indhold Gyldighed:

Når validatoren antager, at hans forudsigelse er repræsentativ for en given klasse situationer, er han involveret i indholdsvaliditet. Han har et specifikt begreb om den slags viden, færdighed, attitude eller ydeevne, der skal tappes af måleinstrumentet, og han anser instrumentet gyldigt i den grad, at dets indhold er repræsentativt for det, han ønsker at trykke på. Indholdsgyldighed er generelt ikke målelig i nogen statistisk eller kvantitativ forstand.

Man finder den størst mulige brug af indholdsgyldighed blandt brugere af præstationsprøver, som f.eks. Afsluttende eksamen på et kursus. En afsluttende eksamen kan kun anses for at have indholdsvaliditet, hvis den er tilstrækkeligt repræsenteret (samplet) med hensyn til dens emner, indholdet af kurset. Hvis det ikke repræsenterede en dækning af selvfølgelig materiale, kunne det bestemt ikke betragtes som en passende prøve til brug for en afsluttende eksamen - det ville derfor ikke have indholdsgyldighed.

Konstruer gyldighed:

Med denne type gyldighed ønsker brugeren at afgøre, i hvilken grad de personer, der vurderes, har noget træk eller kvalitet (konstruktion), der formodes at afspejles i testpræstationen. Den generelle procedure indebærer administration af flere testinstrumenter, som logisk synes at måle den samme konstruktion og derefter observere forholdet mellem disse foranstaltninger. Konstruktionsgyldighed er ikke i nogen væsentlig grad brugt af industripsykologen; det har tendens til at blive oftere brugt i teoretiske snarere end pragmatiske situationer.

Syntetisk gyldighed:

Man kan overveje syntetisk gyldighed til at være "antaget" forudsigende validitet. Antag, at vi har en test, der i en række situationer har vist et højt prædiktivt forhold til forskellige præstationskriterier for industrielle formænd. Antag endvidere, at et lille produktionsanlæg ønsker at anvende en test ved udvælgelse af formen, men for få forarbejdere arbejder i anlægget for at gennemføre en samtidig validitetsundersøgelse. Denne plante kan beslutte at anvende testen uden nogen formelle statistiske evalueringer på den antagelse, at det havde vist sig at være vellykket i andre større planter.

Denne procedure kan kun betragtes som gyldig, hvis:

(1) Foremanens job i denne anlæg ligner de ledige job, der er involveret i den statistiske evaluering af testen, og

(2) Forslagsansøgere på dette anlæg er typiske (kommer fra samme befolkning) som ansøgerne til formændene i de større planter. Syntetisk validitet bør kun erstattes af forudsigelig gyldighed med fuld bevidsthed om dens mulige begrænsninger.

Ansigtsgyldighed:

En anden form for validitet, der ofte bruges til at beskrive en test indebærer, i hvilken grad en bruger er interesseret i at have sin test "se ret" til testtageren. Jobansøgere bliver ofte forstyrret, hvis de forudsigelsesinstrumenter, de skal tage, synes at have ringe eller intet forhold til det job, som de søger. Hvis man for eksempel vælger personer til en maskinistposition, og en test af aritmetisk evne anvendes som en forudsigelse, skal testelementerne omhandle tal anvendt på mekaniske problemer snarere end at blive formuleret i mere generelle termer, såsom køb af æbler eller appelsiner.

Hvis ansøgeren ikke ser prædiktorens relevans for det job, som han ansøger om, som det ofte sker på personlighedstest, kan han underkastes et alvorligt tab i motivation i testsituationen, blive afledt eller på den anden side føler sig usikker Dette ødelægger ikke kun udvælgelsesprogrammet, det kan også skade virksomhedens image og beskadige billedet af test i enhver industriel indstilling. Forfatterne risikerer at gætte, at nogle af de dårlige reklame, som brugerne af selektionsudstyr i industrien modtager, kan skyldes brugeren med udsigt til behovet for, at hans test har ansigtets gyldighed.

Aldersbegrænsning og arbejdsoplevelse og deres virkning på gyldighed:

Undersøgelse af arbejdstagernes ydeevne på et bestemt job viser ofte et konkret forhold mellem sådanne variabler som alder og erfaring og kriteriet. Jo mere kompliceret jobbet er, desto mere er disse former for relationer sandsynligvis at eksistere. For mange job er en betydelig erfaring nødvendig før medarbejderne bliver dygtige på deres arbejde. Sammenhængen mellem disse typer af variabler og kriterier for jobsucces udgør et alvorligt problem i udvælgelsen. Forsigtighed er nødvendig, især hvis man anvender den samtidige gyldighedsprocedure som et middel til at etablere nytteværdien af ​​enhver forudsigelsesenhed.

Hvis der for eksempel eksisterer en høj sammenhæng mellem kriteriet og længden af ​​tid på jobbet, hvordan skal en høj samtidig validitetskoefficient tolkes? Betyder det, at forudsigeren reelt afspejler evnernes forskelle blandt arbejdstagere som målt ved kriteriet, eller er arbejdstagerforskelle primært på grund af erfaring på jobbet? Hvis det er sidstnævnte, så er alle forudsigelserne i stand til at skelne mellem disse arbejdstagere med lang varighed fra dem, der er blevet ansat mere for nylig.

Den observerede validitet er generelt en overvurdering af den prædiktive effektivitet af udvælgelsesinstrumentet. Faktisk, medmindre man klart kan godtgøre, at forudsigeren ikke er korreleret med træk som alder og beføjelser, som selv kan være afgørende for jobpræstationen, må alle samtidige validiteter, der opnås med denne forudsigelse, være stærkt mistænkte.

For at illustrere punktet skal du overveje situationen, hvor man har et kriterium, en prædiktor og en kriterierelateret variabel som f.eks. Ansættelsesforhold, som i høj grad er ansvarlig for forskelle i færdigheder, der er vist på kriteriet af medarbejdere, som følger:

C + D = Observeret samtidig validering af predictor

D = Mængden af ​​"frihedsfri" kriterievariation svarede for præsident

C = Mængden af ​​"fastløbsbestemt" kriterievariation svarede til af forudsigeren

Den observerede validitet er generelt men ikke altid en overvurdering af den sande gyldighed, da:

Den egentlige eller upartiske samtidige validitet, som repræsenterer sammenhængen mellem forudsigelse og kriterium, der er fuldstændig fri for indflydelse af jobbesiddelse, er givet af ligningen-

Korrelationen (r sande ) som vist i diagrammet repræsenterer på billedlig måde, hvad der er kendt i statistik som en "delvis" korrelationskoefficient. Det rapporterer sammenhængen mellem forudsigelse og kriterium, efter at virkningerne af jobbesiddelse er fjernet fra både forudsigelsesscore og kriterietantalet nuværende medarbejdere. Det er vigtigt, at besiddelsesvirkninger fjernes fra både kriterium og forudsigelse i den samtidige situation.

Hvis disse effekter ikke er statistisk fjernet fra kriteriet, vil vi ende med at forudsige indflydelse fra fast ejendom frem for jobpræstationer, med ringe eller ingen relevans for prædiktiv validitet. Hvis jobbesiddelseseffekter ikke fjernes fra forudsigeren, kan vi også få en validitetskoefficient, som ikke kan betragtes som relevant for en virkelig prædiktiv validitetssituation.

Visse problemer med kriterium- og forudsigelseskorrelerede variabler i den samtidige indstilling illustrerer nogle af de alvorlige begrænsninger, der er involveret i denne valideringsmetode. Det kan med sikkerhed forklares, at der absolut ikke er erstatning for den type gyldighed, der er kendt som forudsigelsesgyldighed, når man konstruerer og bruger et valginstrument.

Pålidelighed:

Generelt gælder validitetskonceptet, hvad der måles af en måleenhed. En anden og måske lige så vigtig egenskab for forudsigere er behovet for at kende målets sammenhæng, uanset hvad der måles. Angives på en anden måde, skal vi fastslå graden af ​​stabilitet af enhver måleenhed; måling opnået fra en prediktor skal være konsistent. Den grad, som et måleinstrument er konsistent eller stabilt og ville give de samme score igen og igen om nødvendigt, defineres som pålideligheden af ​​det pågældende testinstrument.

Ligesom validitet måles pålideligheden normalt ved hjælp af korrelationskoefficienten. Da pålidelig måling indebærer stabilitet fra en situation til en anden, skal pålideligt instrument enten producere de samme score eller i det mindste ensartede placeringer af personer i to situationer. Ved at beregne korrelationen opnår vi et matematisk udtryk for omfanget af det der forekommer.

Således er et pålideligt måleinstrument et, hvor enkeltpersoner får samme score (eller næsten det samme) i gentagne målinger. Når korrelationskoefficienten anvendes til at måle ensartet score for en gruppe mennesker på to applikationer af samme mål, kaldes det en pålidelighedskoefficient.

Den egentlige proces, hvormed man kan vurdere pålideligheden af ​​en foranstaltning, afhænger af mange faktorer. Der er tre store alternative "slags" pålidelighed, som hver især har sine egne fordele og ulemper. De er tilstrækkeligt forskellige i deres underliggende logik for at retfærdiggøre at undersøge hver enkelt del.

De tre teknikker til opnåelse af instrumentets pålidelighed er:

(1) Gentagne foranstaltninger på samme personer med samme test eller instrument,

(2) Måling på de samme personer med to "ækvivalente" former for måleinstrumentet, og

(3) Adskillelse af måleindretningen i to eller flere ækvivalente dele og interkorrelere disse "del" -resultater.

Før vi overvejer hver metode, bør vi på en mere specifik måde undersøge visse typer pålidelighed eller stabilitet, som vi måske må tænkes interesseret i under forskellige omstændigheder.

Lad os antage, at når vi anvender et måleinstrument for at opnå en persons score, er den opnåede score en funktion af flere faktorer som følger:

X i = X sand + X fejl

Hvor

X i = Observeret score for person jeg på test

X true = True score for person jeg på test-dette er den faktiske mængde af kvalitet målt ved testen, den person, jeg virkelig besidder.

X error = Fejl score for person jeg på test-dette er det beløb, som personen er score blev påvirket af driften af ​​forskellige chance eller tidsfaktorer.

Hvis alle måleinstrumenter og målemetoder var "fejlfrie", ville vi altid opnå de rigtige scoringer af mennesker, og korrelationen mellem to målinger på samme gruppe mennesker ville altid være + 1, 00 eller perfekt pålidelighed (forudsat ingen ændring i de sande resultater kan forventes). Desværre er en sådan fejlfri måling aldrig helt tilgængelig, da en lang række ting? Bidrage til ydeevne på et hvilket som helst bestemt tidspunkt.

Således kan x jeg enten være større end eller mindre end X true for en bestemt måling, og korrelationer beregnet mellem målinger er altid mindre end enhed. Med hensyn til vores billedrepræsentation af ydeevnen mellem mennesker på en måleenhed, hvad enten det er test eller interview, forudsigelse eller kriterium, kan denne samlede varians opdeles i de to hovedkomponenter af ægte varians og fejlvariation.

Hvor totalvariation = totalvariation af observerede testresultater

Æg variance = variabilitet af mennesker i forhold til deres sande mængder af karakteristika, der måles

Fejlvariation = variabilitet af folks fejlscorer

Pålidelighed kan defineres som et forhold mellem ægte varians til total varians eller

Jo større andelen af ​​sand scorevariance eller omvendt er, jo mindre er mængden af ​​fejlvariation, der er til stede i måleprocessen, desto større er målingens pålidelighed. Den kritiske faktor, der differentierer de tre hovedprocedurer til bestemmelse af pålidelighed, er ved at bestemme, hvad der skal betragtes som fejlvariation, og hvad der skal betragtes som en sand eller systematisk varians. Der er ingen enkelt pålidelighed for nogen test. Snarere afhænger pålideligheden af ​​øjeblikkets behov.

For eksempel kan psykologen stille nogle af følgende spørgsmål om måleprocessen:

1. Hvor præcist kan jeg måle mennesker med denne test på et givent tidspunkt?

2. Hvor præcist vil foranstaltninger truffet med denne test i dag være repræsentative for de samme mennesker på et senere tidspunkt?

3. Hvor præcist vil scorerne på denne test repræsentere disse menneskers sande evne på det træk, der testes af testen?

Alle tre er legitime pålidelighedsspørgsmål. Men hver især lægger en noget anderledes vægt på forskellige kilder til fejlvariationer i testresultater.

Disse kilder til fejlvariation er blevet udtrykt af Thorndike og Hagen (1963) som:

1. Variation på grund af testen på et bestemt tidspunkt

2. Variation i individet fra tidsperiode til tidsperiode

3. Variation på grund af den særlige stikprøve af opgaver, der vælges til at repræsentere kvaliteten, der måles

Lad os nu fortsætte med at undersøge hver pålidelighedsmetode, idet vi tager fejlkilderne i betragtning, så vi kan bestemme, hvordan hver metode behandler hver kilde.

Test-retest Metode:

En åbenbar metode til at vurdere stabilitet består i at måle den samme persons præstation to gange med det samme måleinstrument. Denne type pålidelighed omfatter variationskilder 1 og 2 som fejl. Den resulterende pålidelighed er således en, der måler stabiliteten af ​​den sande score over tid. Der er mange problemer med test-retest-metoden, der er skabt ved at have individer målt på samme test to gange.

For eksempel, medmindre tidsperioden er temmelig lang mellem administrationer, vil variablen af ​​en hukommelsesfaktor sandsynligvis påvirke svarene fra personer på den anden administration. Et andet problem er, at variation på grund af den særlige stikprøve af opgaver eller genstande, der er valgt, behandles som systematisk varians, hvilket øger pålideligheden.

Enhver person, der tilfældigt er ved at kende flere svar, simpelthen fordi nogle af testemnerne rørte sig, siger på en hobby af den person, også ville blive begunstiget i den anden administration, fordi de samme ting snarere end en ny prøve er Brugt. Han bør derfor scorer højt på begge test på grund af, at variationskilde 3 behandles som sand varians.

Parallelle testmetoder:

En måde at undgå at have fejlkilde 3 som sand varians er at bruge to helt sammenlignelige eller "ækvivalente" former for måleinstrumentet. Disse to former skal være så identiske som muligt, bortset fra at specifikke emner eller spørgsmål på hver formular ikke ville være de samme, selv om de hver især repræsenterer en lignende prøve af de valgte emner. En form kan indgives umiddelbart efter den anden, eller de kan indgives med mellemrum, afhængigt af om man er bekymret for at have variationskilde 2 indbefattet som fejlvariation.

Denne form for pålidelighed, når der anvendes mellemrumsprøvning, repræsenterer den mest strenge vurdering af stabilitet, der kan foretages. Imidlertid er det ofte umuligt eller i bedste fald ekstremt svært at konstruere alternative former for et måleinstrument.

Hvordan opbygger man to alternative men tilsvarende former for en måling af jobpræstation eller to alternative former for en personlig historieformular? I mange tilfælde ikke uden store vanskeligheder. Denne mangel på en virkelig sammenlignelig måleanordning har fået psykologer til at søge yderligere metoder til vurdering af pålidelighed udover test-retest og parallel form procedurer.

Opdelte testmetode:

Den tredje store pålidelighedsmetode refereres ofte til som et mål for den interne konsistens af en måleenhed. Det giver en indikation af, i hvilket omfang folk scorer det samme i forhold til hinanden på forskellige underafsnit af det overordnede instrument. Denne metode er sandsynligvis den mest anvendte metode til måling af pålidelighed, da det kræver, at kun en form konstrueres og alligevel ikke kræver gentagne administrationer af den form.

Dens mekanik er meget enkel. I sin mest grundlæggende form er den interne konsistensmetode den parallelle formprocedure, hvori de parallelle former er to halvdele af samme test. Disse halvtest er valgt for at være så ækvivalente som muligt, men ofte bliver testen simpelthen opdelt i to halvdele ved at sætte alle de ulige numre i en halv og alle de lige antal nummer i den anden halvdel. Dette kaldes den ulige-lige version af split-half teknikken.

Det er vigtigt at huske at adskillelsen af ​​den samlede test i tilsvarende halvdele kun forekommer, når man scorer den test, ikke når man administrerer den. Da de to delprøver hver kun er halvt så længe som originalen, repræsenterer hver en prøve adfærd kun halvt så stor som den samlede test. Korrelationen (pålidelighed) mellem halvdele er således sandsynligvis en undervurdering af pålideligheden af ​​scoringer baseret på hele testen.

For at opnå et skøn over, hvad pålideligheden af ​​den komplette test er, kan Spearman-Brown Prophecy formel anvendes som følger:

r tt = 2r ½½ / 1 + r ½½

hvor r tt = pålideligheden af ​​den samlede test (estimeret)

r 1/2 1/2 = observeret korrelation mellem testens to halvdele.

For eksempel, hvis den observerede korrelation mellem halvdele var 0, 40, ville profetisk formel beregne pålideligheden af ​​den komplette test som:

rtt = 2 (0, 40) / 1 + 0, 40 = 0, 80 / 1, 40 = 0, 57

Opdelingsmetoden tilvejebringer således en metode til estimering af pålidelighed med en enkelt test og en enkelt indgivelse. Der er dog visse ulemper ved dets anvendelse. Når man har en test, der primært involverer hastighedsfaktorer (som f.eks. Visse enkle klerketest), giver den alternative halvprocedure et fejlagtigt højt resultat.

Da hastighedsprøver normalt involverer lette genstande, er det kun et spørgsmål om, hvorvidt de blev svaret på, der afgør, om de var korrekte eller forkerte. Således ville splittelsen af ​​prøven på et ulige-lige grundlag for eksempel resultere i næsten identiske scorer for begge halvdele - således en høj positiv korrelation.

Kuder-Richardson Metode:

En anden version af split-half-metoden bruges ofte til måling af pålidelighed. Vedrørende en statistisk teknik kendt som variansanalysen, er dens hyppigste form kendt som Kuder-Richardson-proceduren. Kuder-Richardson (KR) -metoden er også en intern konsistenssikkerhed, som i det væsentlige behandler hvert testelement som en subtest, således at i stedet for at have to halvdele, er der n subtests, hvor n er det samlede antal emner på måleinstrumentet. KR-teknikken svarer til at beregne alle mulige korrelationer mellem par af testelementer (der vil være n [n - 1] / 2 sådanne par), idet der tages gennemsnittet af disse og justerer resultatet ved hjælp af Spearman-Brown-profetien

Hvor

r tt = estimeret pålidelighed af total test

r ii = gennemsnitlig korrelation mellem elementer

K = antal par af varer

I lighed med proceduren med halv halv formular ignorerer Kuder-Richardson-proceduren variationskilde 2 og er ikke egnet til hastighedsprøver.

En sammenfatning sammenligning er angivet i tabel 2.4. Denne tabel viser de forskellige pålidelighedsmetoder og sammenligner dem med hensyn til de variationer, som de indeholder som fejlvariation.