Forudsigelse af jobsucces (med diagram og statistik)

Forudsigelse af jobsucces involverer bestemmelse af, hvorvidt forudsigeren er relateret til kriteriet. Antag for eksempel, at man var interesseret i at oprette et valgprogram til at ansætte nye filklienter. Antag endvidere, at det var blevet besluttet at anvende en papir-og-blyantstest af klare kvalifikationer som en potentiel forudsigelse for filklerkers effektivitet, og at effektiviteten skulle bestemmes af vurderinger fra tilsynsmyndigheder. Tabel 2.3 viser nogle hypotetiske data for denne formodede situation, hvor der gives scorer for tolv filklienter på både den klare test og effektivitetskriterieforanstaltningen. Figur 2.5 viser en graf af dataene i tabel 2.3.

Bemærk, at der ser ud til at være en systematisk tendens. Generelt, jo højere en person scorede på den skriftlige test, jo højere scorede hun på målet om jobkundskaber. Vi kan derfor udlede, at der er et klart forhold mellem testpræstationen (forudsigeren) og jobkundskabet (kriteriet). Vi kan også udlede, at hvis vi vælger de personer, der scorer højere på testen, er vi mere tilbøjelige til at ansætte folk, der vil være mere dygtige end hvis vi ansætter folk uafhængigt af testresultatet.

Etablering af graden af forhold:

Graden af forholdet mellem en hvilken som helst to variabler kan defineres som i hvilket omfang disse to variabler varierer sammen på en systematisk måde. Det mere tekniske udtryk for dette er graden af kovarians mellem variabler. En formel måling af graden af kovarians mellem to sæt sætninger er tilvejebragt af en statistik kendt som korrelationskoefficienten. Når to sæt scoringer er meget relaterede, siger vi, at de er stærkt korrelerede. Den mest almindelige måling af korrelation er Pearson Product Moment Correlation Coefficient, som er angivet med symbolet r.

Som et forhold til forholdet varierer r mellem + 1, 00 og -1, 00. Når r er + 1, 00, er de to sæt scoringer positivt og perfekt forbundet med hinanden. Når r er -1, 00, er de to sæt scoringer negativt og perfekt forbundet med hinanden. Når r = 0, 00, har de to sæt scores ikke noget forhold til hinanden overhovedet. Figur 2.6 viser grafer af forskellige størrelser af r.

Ved forudsigelse af jobsucces er tegn på korrelationskoefficienten ikke vigtig, men størrelsen er. Jo større den absolutte størrelse af r, jo bedre er forudsigelsen af kriteriet scores på basis af information opnået fra forudsigeren.

For at forstå begrundelsen for korrelation kan det være nyttigt at overveje en billedlig repræsentation af kovarians og dets forhold til r. Et hvilket som helst sæt af scoringer vil have en vis variation - faktisk, som vi allerede har set, følger antallet af mennesker på mange træk en normal fordeling med et lille antal meget high scores, et lille antal meget lave score og de fleste af de scoringer, der forekommer midt i fordeling.

Antag, at vi repræsenterer denne variance i et sæt af kriterium score som vist ovenfor, hvor det samlede område er defineret som 1.00. Vi kan gøre dette, da det er muligt at omdanne et sæt røde scoringer, så deres varians bliver lig med 1, 00 ved at bruge det såkaldte az-score transformation.

På samme måde antager vi, at vi har et sæt prædiktor score, som også varierer og fordeles normalt, og igen er området defineret som værende lig med mængden 1, 00. Vi kan nu repræsentere r geometrisk som at være relateret til mængden af overlapning (kovarians) af de to sæt scoringer.

En mere præcis definition af r som en statistik er, at det er forholdet mellem mængden af kovarians mellem to variabler til kvadratroden af produktet af de respektive afvigelser (undertiden kaldet et geometrisk gennemsnit), som kan skitseres som vist nedenfor:

Tilbage til dataene givet i tabel 2.3 er det muligt at beregne korrelationen mellem disse to sæt scoringer ved hjælp af formlen

Læseren rådes, at r ikke kan fortolkes som en procentdel. Hvis r = 0, 50, betyder det ikke, at 50 procent af variansen i kriteriet er forudsigelig fra udvælgelsesvariablen. Kvadratet af r kan dog fortolkes så. En korrelation på 0, 50, når den er kvadratisk, giver r ² = 0, 25, som kan tolkes som procenten af variansen i kriteriet forudsagt af selektionsvariablen.

Statistikken r ² kaldes nogle gange bestemmelseskoefficienten, fordi den repræsenterer størrelsen af variansen i en variabel, som kan "bestemmes" ved at kende scorerne på en anden variabel. Figur 2.7 viser forholdet mellem r (forholdet mellem forholdet) og r ² . Bemærk, at det er muligt at få r'er af ret betydelig størrelse og stadig kun tegner sig for en lille del af kriterievariancen.

Regression:

Som vi har set, måler korrelationskoefficienten r graden af forholdet mellem to variabler. I sig selv giver den os dog ikke en procedure, hvorved vi kan forudsige et sæt scoringer fra et andet sæt. Den teknik, hvormed dette gøres, kaldes regressionsanalyse. Regression kan anses for at være relateret til korrelation som følger: Korrelation måler størrelsen eller graden af forholdet mellem to variabler, mens regression giver en beskrivelse af typen af forhold mellem variabler, der igen kan bruges til at forudsige.

For at illustrere regression overveje de score, der er tegnet i figur 2.8a. Det er åbenbart, at der er et væsentligt positivt forhold mellem forudsigeren og kriteriet i dette tilfælde. Desværre giver Figur 2.8a os ingen oplysninger om det nøjagtige forhold, bortset fra det faktum, at det er lineært (kun måler kun graden af lineær, i modsætning til krøllet forhold mellem to variabler). Hvis vi ønsker at forudsige kriteriescore fra nogle selekteringsenheder, er det klart, at vi mere specifikt skal beskrive det observerede forhold mellem prediktor og kriterium.

Dette opnås ved at finde den linje eller funktion, der bedst beskriver datapunkterne. Dette kaldes montering af en "linje af bedste pasform" til dataene. Da vi antager, at forholdet er lineært (vi brugte r til at måle størrelsen), skal den type linje vi bruger være lige, det vil sige, at ingen buede linjer er tilladt. Denne bedst passende lige linje kaldes regressionslinjen og kan bruges til at forudsige kriteriet fra forudsigeren.

Figur 2.8b viser to forskellige linjer af bedste pasform, som kunne opnås, hvis vi stillede to forskellige personer til at undersøge dataene og derefter tegne en linje gennem de punkter, som efter deres mening synes bedst at beskrive tendensen eller forholdet mellem variablerne. Mens den generelle tendens er ens, finder vi, at de to mennesker ikke helt er enige i deres estimat af forholdet.

Denne uenighed vil igen føre til uenighed i den forudsagte kriteriescore afhængig af hvilken estimeret regressionslinie der blev anvendt. I betragtning af en jobansøger med en score x på udvælgelsesinstrumentet, ville vi forudsige et kriterium score på y ₁ for denne ansøger, hvis vi skulle bruge den første persons regressionslinje; hvis vi brugte den anden persons regressionslinje, ville vi forudsige y ₂ som den mest sandsynlige kriterie score. Hvilken regression er korrekt?

Dette er et vanskeligt spørgsmål at besvare, medmindre der er noget grundlag for at beslutte, hvad en "bedst egnet" virkelig er. Heldigvis har statistikere generelt aftalt, at en bedst passende linje er en, der går gennem punkterne, så den minimerer summen af de kvadratiske afstande (i y-dimensionen) af punkterne fra linjen som vist i figur 2.9.

En linje, der opnår minimering af Σd ², kaldes en "mindst kvadratisk" regressionslinie. Sådanne regressionslinjer er matematisk direkte relaterede til r. Ved at bruge den mindste kvadrering metode til at opnå vores forudsigelse linje vil sikre, at forskellige mennesker vil ende med den samme linje (forudsat at de ikke gør nogen fejl i beregningen). Tilsvarende varierer det forventede kriterium score for en bestemt x-værdi ikke afhængigt af, hvem der passer til forudsigelseslinjen (se figur 2.8c).

På dette tidspunkt kan læseren spørge: "Hvorfor skal vi forudsige kriteriescores, når vi allerede har dem?" Svaret er ret simpelt. Den indledende måling af omfanget af forholdet mellem forudsigeren og kriteriet kræver naturligvis begge sæt scoringer ellers forholdet kunne ikke være blevet etableret. Skal udvælgelsesindretningen vise sig nyttig, kan den derefter bruges sammen med alle nye ansøgere, for hvem der kan være en forudsigelsesscore, men for hvem der ikke findes en kriteriescore.

Vores mål er at forudsige kriteriet ydeevne for fremtidige ansøgere. Hvis en ny ansøger vurderer højt på en test, der viste sig at have et højt positivt forhold til kriteriet, bør vi forvente, at han har stor sandsynlighed for at vise sig at være en vellykket ansættelse.