Fork me on GitHub

D-PAC voor jou

Wil je graag meer weten over de werking van D-PAC?
Kies één van de drie rollen en kijk wat D-PAC voor u kan betekenen:

Beoordeeld worden

Beoordelen

Procesmanager

 

Beoordeeld worden

Voordelen

De klassieke beoordelingsmethode met het toekennen van punten is onderhevig aan een aantal externe factoren. Zo is de ‘mood’ van de dag bepalend voor de punten die gegeven worden, evenals de eerste representaties die de beoordelaar te zien krijgt. Als je pech hebt, heeft je beoordelaar een slechte dag of komt jouw representatie net na een erg goede representatie. Hierdoor kan de beoordelaar je een lager cijfer geven dan wanneer de omstandigheden anders waren. Onderzoek wijst ook uit dat indien dezelfde beoordelaar gevraagd wordt dezelfde taak te scoren op een ander tijdstip (bv. een maand later) er erg weinig kans bestaat dat die taak dezelfde score krijgt als bij de vorige beoordeling.

Ook is het moeilijk om competenties in cijfers of criterialijsten te vatten. Wat is een 6/10 op ‘actief luisteren’? En wat is daarin het verschil met een 7/10 of een 5/10?

Deze ‘fouten’ (hoe natuurlijk ook) worden door D-PAC uitgezuiverd. Als je competentie door D-PAC beoordeeld wordt, resulteert dit in een betrouwbaar oordeel omwille van volgende redenen:

  • Ten eerste wordt je representatie beoordeeld door meerdere beoordelaars en verloopt alles anoniem en holistisch. Dit wil zeggen dat je competentie globaal wordt beoordeeld en niet wordt geforceerd in kleiner deelaspecten.
  • Ten tweede wordt jouw representatie verschillende keren vergeleken met andere representaties. De uiteindelijke beoordeling berust dus niet op één enkel oordeel. Op deze manier verloopt het beoordelingsproces zeer objectief.
  • Ten derde moeten de personen die jouw representatie beoordelen geen punt meer geven op je prestatie. In plaats daarvan krijgen ze een duo van representaties te zien en moeten ze kiezen welke van de twee representaties beter is. Ze moeten ook aangeven waarom ze dit vinden. Uit onderzoek is gebleken dat mensen het eenvoudiger vinden om een vergelijking te maken, dan om een punt toe te kennen. Verder blijkt ook dat deze keuze overheen tijd consistent is. Dit wil zeggen dat als we dezelfde beoordelaar over een maand voor dezelfde keuze stellen, de kans zeer groot is dat het oordeel hetzelfde is.
Feedback

De tool zal ook feedback voor jou voorzien. Je representatie wordt door verschillende beoordelaars bekeken en wordt door hen voorzien van feedback. Deze feedback wordt vervolgens gebundeld zodat je een overzicht krijgt van wat jouw sterke en minder sterke punten zijn van jouw representatie zoals aangegeven door de beoordelaars. Daarenboven stelt de tool je in staat om je eigen representatie te vergelijken met andere (anonieme) representaties, zowel de betere als mindere. Ook hier kan je de feedback van zien zodat je kan achterhalen waarom jouw representatie beter of minder scoorde in vergelijking met de andere representaties. Op deze manier worden je leerkansen gemaximaliseerd.

Top

Beoordelen

Voordelen

Voor beoordelaars die gewend zijn om met criterialijsten te werken, zal het beoordelen via paarsgewijze vergelijking misschien even wennen zijn. Wij verwachten echter een aantal voordelen voor je:

  • Ten eerste mag je de beoordelingen intuïtief maken. Dat betekent dat je niet geforceerd wordt om op deelaspecten van de competentie uitspraken te doen, terwijl het zou kunnen dat je vrij makkelijk een goed beeld kan vormen van de globale kwaliteit van een taak.
  • Ten tweede is het intuïtiever beoordelen een eenvoudigere taak en is er geen afstemming meer nodig omtrent de interpretatie van de verschillende criteria.
  • Ten derde hoef je niet meer met criterialijsten te werken die misschien niet aansluiten bij de aspecten van een competentie die jij belangrijk vindt. Regelmatig komt het voor dat beoordelaars andere aspecten willen meenemen of een andere weging willen geven aan bepaalde deelaspecten. Dit kan het gevolg zijn van de samenstelling van de criterialijst, maar ook van een enkele taak van een student die op een (net iets) andere wijze de opdracht heeft gemaakt. Paarsgewijze vergelijking gaat uit van de expertise van de assessor en erkent dat het onmogelijk is om subjectiviteit uit te bannen uit het beoordelingsproces. De uiteindelijke score die een taak krijgt is een uiting van de gedeelde consensus van de beoordelaars over de kwaliteit van een taak in vergelijking met de andere taken. Deze methode komt dus tot betrouwbare scores ondanks dat beoordelaars verschillen in focus en zonder van te voren vast te leggen hoe beoordelaars een taak moeten beoordelen.
Hoe beoordelen?

Om een duidelijk beeld te geven van het beoordelingsproces, verwijzen we graag naar de screencast.

Wat bij gelijke stand?

Wat moet ik doen als ik beide representaties even goed vind?

Random kiezen.

Heeft deze random keuze invloed op de uiteindelijk rangorde/beoordeling?

Nee, waarschijnlijk hebben representatie A en B een min of meer gelijkwaardige kans om te winnen en eindigen ze in de uiteindelijke rangorde zeer dicht naast elkaar.

Hoe kan dat?

Om dit duidelijk te maken proberen we eerst op een begrijpbare manier de statistiek uit te leggen die tot de rangorde komt. Als men een groep mensen vraagt om “de beste” te kiezen uit twee representaties C en D, dan is het mogelijk dat niet iedereen dezelfde kiest. Dit is zeker het geval als C en D nauwelijks verschillen in kwaliteit. Statistisch: representatie C wint 70% van de keren van een andere representatie. Dus, representatie C heeft 70% kans om te winnen van een andere representatie. Deze kans stelt voor hoe groot het percentage is dat de beoordelaars representatie C zal verkiezen boven een andere representatie. Uit deze redenering geldt dat de kans dat een representatie verkozen wordt een maat is voor de kwaliteit van deze representatie. Met deze redenering als basis kunnen we met enkele extra veronderstellingen tot een rangorde komen. Bijvoorbeeld, we hebben drie representaties: C, D en E

  1. Als de representaties C en E in een paar terecht komen en C heeft een hogere kwaliteit dan E dan kunnen we veronderstellen dat C meer gekozen zal worden dan E. Met andere woorden, C heeft een grotere kans dan E dat die gekozen wordt als de beste uit het paar C, E.
  2. Kort samengevat: kans C > kans E

  1. Verder, hoe groter de kwaliteit van C in vergelijking met E, hoe groter de kans zal zijn dat C gekozen wordt van het paar C, E.
  2. Stel nu dat representatie E in het paar D en E een grotere kwaliteit heeft dan representatie D, dan kunnen we zoals in (1) zeggen dat:
  3. kans E > kans D

  1. Als kans C > kans E (1) en kans E > kans D(3) dan ook is kans C > kans D.
  2. Dus kans C > kans E > kans D

In 4 kunnen we zien dat we een rangorde hebben. Bovendien zijn we zijn hierin geslaagd zonder alle representaties met elkaar te moeten vergelijken.

Wanneer we nu terug gaan naar representaties A en B die elkaars gelijke zijn. We nemen aan dat A en B ergens in kwaliteit tussen E en D zitten. Wanneer we dan een groep mensen willekeurig laten kiezen tussen beide A en B dan kunnen we statistisch gezien veronderstellen dat de helft voor A zal kiezen en de helft voor B (want 50% kans). Dit is te vergelijken met mensen laten kiezen tussen twee identieke knikkers. Als je genoeg mensen laat kiezen, of één persoon genoeg keer laat kiezen, zal er uiteindelijk geen systematische voorkeur te zien zijn voor een bepaalde knikker.

We kunnen dus zeggen dat de kans dat A gekozen wordt 50% is, als ook de kans dat B gekozen wordt. Anders gezegd ziet onze rangordening er als volgt uit (4):

kans C > kans E > kans A = kans B > kans D

>of

kans C > kans E > kans B = kans A > kans D

Cesuur bepaling

Wat de tool niet doet, is automatisch de cesuur bepalen. Wij adviseren dat wanneer de rangorde bepaald is, er een team van experts (vakwerkgroep, ervaren recruiters,…) in overleg de cesuur bepaalt. We verduidelijken dit met een voorbeeld uit het onderwijs.

Studenten uit alle 5 de jaars secundair van een bepaalde school krijgen een schrijfopdracht voor het vak Nederlands. Deze taken worden beoordeeld door de vakwerkgroep Nederlands aan de hand van de D-PAC-tool. Dit resulteert in een zeer betrouwbare rangorde van de minst goede tot de beste schrijftaak. De vakwerkgroep overlegt nu en bepaalt welke schrijfopdracht de minimumkwaliteit heeft om geslaagd te zijn. De rangorde is nu verdeeld in geslaagd en niet geslaagd. Indien gewenst kan hier door de leerkrachten zelf nog onderverdelingen in gemaakt worden.

Indien er verschillende richtingen zijn en bijvoorbeeld de leerkrachten meer verwachten van studenten uit de richtingen moderne talen, dan kan er eenvoudig een tweede cesuur bepaald worden. Zo kan indien gewenst bijvoorbeeld schrijfopdracht X de cesuur zijn voor alle richtingen moderne talen en schrijfopdracht Y de cesuur zijn die lager ligt voor de andere richtingen. Je zou deze redenering ook kunnen doortrekken en verschillende benchmarks bepalen voor een bv een 10 of 12 of een 14 op 20.

Een bijkomend voordeel is dat de cesuur over de jaren heen kan bestaan, eenmaal een cesuur bepaald is, hoeft die niet (maar kan natuurlijk wel) opnieuw gelegd te worden. Dit heeft als voordeel dat ook verschillende generaties leerlingen ‘eerlijker’ worden beoordeeld. Je zal als student maar pech hebben dat je in een zeer sterk jaar zit waardoor je in de groep ver onder het gemiddelde scoort, maar in vergelijking met de voorgaande jaren meer dan gemiddeld bent.

Feedback voor beoordelaars

De feedback-module wordt momenteel uitgebouwd en onderzocht. Volgende zaken vormen mogelijk een onderdeel van het feedback-rapport. Een aantal zaken worden al door de tool zelf gegenereerd: Een maat die zegt in welke mate je beoordelingen overeenstemmen met de rest van de beoordelaars. Deze maat is echter geen waarde oordeel. Het is niet omdat je ‘afwijkt’ van wat het statistische model achter de tool zou voorspellen op basis van alle beoordelingen, dat je iets fout doet. Wel zou dit er op kunnen wijzen dat je op andere zaken let in het beoordelingsproces in vergelijking met je medebeoordelaars.

  • Wat zeer eenvoudig mee te geven is in het rapport, is hoeveel tijd je gemiddeld per beoordeling investeert. Op die manier kan je nagaan hoe efficiënt deze vernieuwende methode is.
  • Als beoordelaar zal je ook de volledige rangschikking van alle beoordeelde taken te zien krijgen. We onderzoeken nog in hoeverre het mogelijk is om die taken, die jij beoordeelde, hieruit te zien oplichten. Verder zouden we je toegang willen verschaffen tot betere en minder goede taken (geanonimiseerd) om zo een duidelijk beeld te kunnen vormen van het algehele kwaliteitsniveau van de taken.

Toekomst muziek:

  • We onderzoeken in hoeverre we aan de hand van de comparatieve feedback die de beoordelaars konden ingeven tijdens het beoordelingsproces, zaken kunnen meegeven zoals de meest voorkomende fouten, de sterkste punten, … uit de representaties.

Top

Procesmanager

Omschrijving rol

De procesmanager kan in essentie iedereen zijn die geïnteresseerd is in het opzetten (en afnemen) van een evaluatie van een specifieke competentie. Dit kunnen zowel leerkrachten, opleiders, arbeidspsychologen, recruiters, human resource managers als de examencommissie secundair onderwijs zijn. Kortom iedereen die één of meerdere competenties wil meten, zowel in de context van (schoolse) evaluatie, over selectie, tot professionalisering.

Welke competenties meten in D-PAC?

Op dit moment doen wij onderzoek naar welke typen van competenties en taken geschikt zijn voor de methode van paarsgewijze vergelijking. Uit de literatuur komt naar voren dat deze methode vooral erg geschikt is voor competenties waarin het moeilijk is de grenzen aan te geven. Dit kan zijn omdat er nog geen uitgebreide kennis over de competentie is (bijvoorbeeld als het gaat om een vrij recent ontstaan domein), omdat praktische kennis en vakkennis in elkaar overvloeien of wanneer de kennis niet op papier te vatten is. Wij zorgen er dan ook voor dat de tool werkt met portfolio’s, video en audio.

Selectie assessoren

Het selecteren en trainen van assessoren is cruciaal om kwaliteitsvolle assessments uit te voeren. De geloofwaardigheid staat of valt bij de expertise en het gedrag van assessoren. Dit geldt ook voor paarsgewijze vergelijking waarin de assessor gedurende het beoordelen zich grotendeels verlaat op de eigen inzichten en expertise.

Voor deze methode is het niet noodzakelijk dat alle assessoren precies hetzelfde beoordelen. De combinatie van de verschillende ‘brillen’ van de verschillende beoordelaars zorgt voor een allesomvattende én objectieve kijk. Het is daarom geen probleem als criteria verschillend geïnterpreteerd worden of de ene beoordelaar strenger is dan de andere beoordelaar. Dat betekent ook dat er minder geïnvesteerd hoeft te worden in het trainen van beoordelaars. Wanneer er meer onduidelijkheid is wat nu precies een kwaliteitsvolle representatie van een competentie is, is het wel aan te raden de beoordelaars een aantal vergelijkingen gezamenlijk te laten maken. Op deze manier kunnen ze werken aan een gedeelde conceptualisatie van de competentie. Een minimale gedeelde consensus is noodzakelijk om betrouwbare resultaten te behalen.

Peer Assessment

Uit eerdere onderzoeken en praktijkervaringen is gebleken dat “peers” vaak zeer goed in staat zijn het werk van hun “peers” te beoordelen. Zij kunnen vaak prima inschatten of een ander de opdracht goed of minder goed heeft uitgevoerd. De overeenkomsten in uiteindelijke rangordes tussen peers en experts is hoog. Ook is gebleken dat er vaak maar een beperkte vakkennis nodig is om de beoordelingen te kunnen maken. Het is echter wel belangrijk dat de scores ook geaccepteerd worden door de beoordeelde. Zij zullen eerder geneigd zijn de scores te accepteren wanneer zij vertrouwen hebben in de bekwaamheid van de beoordelaars.

Modaliteiten

Selectie Algoritmes

Momenteel is het mogelijk om te kiezen tussen twee selectie algoritmes. Deze zullen later nog worden uitgebreid. Hier wordt kort het verschil tussen de selectie algoritmes uitgelegd.

  • Comparative-selection-algoritme

Dit algoritme selecteert paren ter vergelijking op een semi-willekeurige manier. Zo zorgt het algoritme ervoor dat de representaties zo breed mogelijk vergeleken worden met de groep. Er zijn geen voorbereidingen nodig opdat dit algoritme zou werken.

Het algoritme volgt volgende stappen:

  1. Sorteer de representaties oplopend naar aantal keer vergeleken
  2. Selecteer de representatie die het minst aantal keer vergeleken is; indien meerdere, selecteer daarvan één willekeurig. → representatie A
  3. Selecteer de representatie
    1. waarmee representatie A nog niet vergeleken is
    2. én die het minst aantal keer vergeleken is; indien meerdere, selecteer daarvan één willekeurig. → representatie B
  4. Herhaal vanaf 1 tot het maximaal aantal vergelijkingen per representatie voor dit assessment bereikt is.

 

  • Benchmark-comparative-selection-algoritme

Dit algoritme is bedoeld om zo snel en efficiënt mogelijk nieuwe representaties te kunnen indelen in categorieën die eerder zijn vastgelegd in een bestaande rangorde. De bestaande rangorde moet voortkomen uit een eerdere evaluatie op basis van comparatief vergelijken. In deze rangorde moeten er één of meerdere categorieën afgebakend worden met representaties die als grenzen (benchmarks) dienen. Deze grenzen zullen meestal de slaaggrenzen zijn, maar ze kunnen ook de niveaus van bekwaamheid voorstellen. Rond deze grenzen moeten er representaties aangeduid worden die statistisch niet te onderscheiden zijn van de grens: grens-representaties.

Het algoritme kent 2 fases. Het algoritme wisselt van fase als alle nieuwe representaties vergeleken zijn met één grens-representatie per grens. Bijvoorbeeld, met twee grenzen zal van fase gewisseld worden als er voor elke nieuwe representatie twee vergelijkingen gemaakt zijn, één met elke grens. Voor en tijdens fase 2 worden voorlopige schattingen gemaakt van de score van de nieuwe representatie.

Het algoritme volgt dan de volgende stappen:

In fase 1:

  1. Selecteer een nieuwe (te categoriseren) representatie die nog niet het maximum aantal vergelijkingen bereikt heeft en die deze assessor nog het minst beoordeeld heeft; indien meerdere, kies willekeurig → representatie A
  2. Kies de grens waarmee nog niet vergeleken is; indien meerdere, kies willekeurig: grens X
  3. Selecteer willekeurig een grens-representatie rond grens X. → representatie B
  4. Representatie A en B worden aangeboden voor vergelijking
  5. Herhaal vanaf 1 tot elke representatie het maximaal aantal toegelaten vergelijkingen voor deze fase bereikt heeft

In fase 2:

  1. Selecteer een nieuwe (te categoriseren) representatie die nog niet het maximum aantal vergelijkingen bereikt heeft en die deze assessor nog het minst beoordeeld heeft; indien meerdere, kies willekeurig → representatie A
  2. Bereken de afstanden tussen representatie A en de grenzen
  3. Selecteer op basis van de afstanden in 2 de grens die het dichtste ligt bij representatie A: grens X
  4. Selecteer een grens-representatie rond grens X die:
    1. het minst aantal keer vergeleken is over de hele assessment
    2. die het meeste informatie oplevert in vergelijking met grens X; alternatieve maat voor afstand tot grens X

→ representatie B

  1. Representatie A en B worden aangeboden voor vergelijking
  2. Herhaal vanaf 1 tot elke representatie het maximaal aantal toegelaten vergelijkingen voor deze assessment bereikt heeft

 

Building blocks

In de D-PAC tool kan je zelf je assessment samenstellen. De tool voorziet enkele bouwstenen die je kan combineren. We zetten ze even op een rijtje:

  1. Comparatieve feedback: Het invulvak laat toe aan beoordelaars om aan te geven waarom zij de ene representatie beter vonden dan de andere. Analyse van deze antwoorden verheldert of beoordelaars letten op elementen die relevant zijn voor de competentie.
  2. Pass/fail: Via deze vraag kunnen beoordelaars aangeven of de representaties voor hen geslaagd zijn of niet. Er is ook een ‘weet niet’-categorie.
  3. Single ease question (SEQ): De SEQ is een 7-punten schaal waarop beoordelaars kunnen aangeven hoe moeilijk zij een bepaalde taak (bv. het kiezen van de beste representatie) vonden. Dit laat toe om naderhand te checken welke stap in het assessment beoordelaars moeilijk vonden (bv het kiezen of eerder het feedback formuleren?). Je kan deze SEQ laten terugkomen na elke stap.
Feedbackrapport

D-PAC voorziet naast feedback aan individuen ook feedback aan procesmanagers. Het is de bedoeling dat D-PAC de procesmanager voorziet van voldoende informatie om assessments binnen de organisatie te monitoren.

Ten eerste krijgt de procesmanager via de feedbackmodule inzicht in de (voorlopige) rangorde gedurende een assessment. Daarbij wordt een indicatie voorzien van de betrouwbaarheid. Op basis van deze gegevens kan de procesmanager beslissingen nemen over het verdere verloop van een assessment. Het kan bijvoorbeeld gewenst zijn om een bepaald niveau van betrouwbaarheid na te streven en daarvoor extra vergelijkingen uit te sturen of om het assessment om efficiëntieredenen bij een bepaalde betrouwbaarheid te stoppen. Een andere mogelijkheid is dat een assessment wordt opgezet om de beste representatie uit een reeks representaties te selecteren (bv. bij selectieproeven). Aan de hand van de rangorde kan dan beslist worden om het assessment te stoppen wanneer de beste representatie duidelijk genoeg verschilt van de overige representaties.

Naast inzicht in de rangorde en de betrouwbaarheid, zal de feedbackmodule voor procesmanagers ook een aantal algemene parameters opnemen, zoals de totale tijdsinvestering in het assessment en het aantal vergelijkingen dat gemaakt werd. Ook deze algemene parameters kunnen de procesmanager helpen in het monitoren van de assessments.

Ten slotte zal in de feedbackmodule informatie opgenomen worden over de assessoren. De feedbackmodule zal onder meer inzicht bieden in welke assessoren al dan niet gestart zijn met het maken van vergelijkingen, de tijd die zij reeds investeerden in het assessment en de mate waarin assessoren op een gelijkaardige manier beoordelen. Deze informatie kan voor de procesmanageer zinvol zijn om de assessoren aan te sturen, bijvoorbeeld wanneer bepaalde assessoren het assessment niet starten, niet efficiënt beoordelen in termen van tijdsinvestering of anders blijken te beoordelen dan hun mede-assessoren.

Tot nog toe is de feedbackmodule voor procesmanagers nog niet operatief in D-PAC. Momenteel wordt onderzoek gedaan naar het nut en de visuele weergave van de beschreven feedbackelementen voor procesmanagers.

Top