Interview met winnaars D-PAC Inspiratie Award

Een schaal ontwikkelen met D-PAC en daar vervolgens 2700 teksten mee beoordelen. Onderzoekers Nina Vandermeulen & Brenda van den Broek wonnen op 15 november met hun prachtige poster over dit onderzoek de D-PAC Inspiratie Award. Wat kunnen zij ons – als ervaringsdeskundigen – leren over comparatief beoordelen?

 

D-PAC Inspiratie Award voor comparatief beoordelen3

Brenda (l) & Nina (r) nemen de D-PAC Inspiratie Award in ontvangst

 

Waar hebben jullie D-PAC voor gebruikt en hoe hebben jullie dat aangepakt?

We hebben D-PAC gebruikt voor het opstellen van een betrouwbaar beoordelings- en feedbackinstrument. We hielden een nationale peiling naar de schrijfvaardigheid van vwo-leerlingen in Nederland en verzamelden zo 2700 syntheseteksten (teksten gebaseerd op verschillende bronnen). We hebben een deel daarvan (300 teksten) beoordeeld met D-PAC op vijf verschillende criteria:

  1. volledigheid, correctheid en relevantie van de informatie
  2. integratie van de bronnen
  3. samenhang (cohesie en coherentie)
  4. taal
  5. algemeen/globaal oordeel

Poster4

Winnende poster D-PAC Inspiratie Award (klik voor groter formaat)

Vervolgens hebben we de vijf schalen die D-PAC opleverde onderverdeeld in vijf kwaliteitscategorieën (oplopend van zeer zwak tot zeer sterk) en zijn we op zoek gegaan naar een representatieve tekst voor elke categorie. Dat was steeds een tekst die zowel globaal als op de vier criteria apart ongeveer dezelfde score had.

Op deze manier hielden we een schaal over met vijf ankerteksten: één gemiddelde tekst en twee (veel) hoger en twee (veel) lager scorende teksten. Deze schaal met ankerteksten is gebruikt om de andere teksten uit onze nationale peiling te beoordelen. Daarnaast gaan we hem ook inzetten om feedback te geven aan leerlingen.

 

Waarom kozen jullie voor D-PAC?

Vooral vanwege de gebruiksvriendelijkheid, zowel voor ons als onderzoekers (geen gedoe met pakketjes opsturen, verwerking achteraf) als voor de beoordelaars (heel intuïtieve manier van beoordelen, twee teksten vergelijken naast elkaar op scherm werkt prettig).

We hadden op PhD-bijeenkomsten kennisgemaakt met Marije Lesterhuis, onderzoeker bij D-PAC, en leerden zo de tool kennen.

 

D-PAC levert betrouwbare beoordelingen op, het is heel eenvoudig in gebruik, werkt prettig en is in veel sectoren inzetbaar.

 

Wat werkte goed?

De vlotte samenwerking met het D-PAC team: na het aanleveren van de data had het D-PAC team heel snel de assessments opgezet. Alle beoordelaars hadden ook binnen de tijd hun beoordelingen afgerond, er was geen uitval. Dat wijst er volgens ons ook op dat het voor hen een prettige ervaring was. Het strookt ook met onze eigen ervaring (want we hebben zelf ook al beoordeeld met D-PAC): het werkt heel intuïtief, je bent als beoordelaar vrij zeker van je oordeel, dat geeft vertrouwen.

 

D-PAC Inspiratie Award voor comparatief beoordelen2

Onderzoekers Brenda & Nina met hun award

 

Wat was lastig?

Eigen aan beoordelen: de betrouwbaarheid. We hebben voor sommige assessments nog een extra beoordelaar moeten inroepen omdat onze betrouwbaarheid (net iets) te laag was voor onderzoeksdoeleinden. We waren overigens in eerste instantie voor het minimum aantal vergelijkingen gegaan en wisten dus dat het zou kunnen dat we beoordelaars zouden moeten toevoegen.

Het goede aan D-PAC is dat je heel makkelijk beoordelaars kan toevoegen om tot een betere betrouwbaarheid van je beoordeling te komen, behalve een extra beoordelaar zoeken heb je hier als onderzoeker verder geen werk aan.

 

Wat zou je een volgende keer anders doen?

Niks! We zouden het zo opnieuw doen!

 

Zijn jullie geïnspireerd geraakt door D-PAC en hoe dan?

Ja, zeker! Aangezien we nu een mooie betrouwbare schaal gemaakt hebben met D-PAC zijn we heel benieuwd naar de verdere ontwikkeling van het plaatsingsalgoritme. In de toekomst zouden we dit graag gebruiken: we stoppen onze schaal in D-PAC en nieuwe teksten kunnen dan in D-PAC beoordeeld worden door vergelijking met de schaal. Dit is niet enkel inzetbaar voor ons als onderzoekers maar zou ook in klassen kunnen worden ingezet: leerlingen zouden er dan er zelf mee aan de slag kunnen als leerproces.

 

Het werkt heel intuïtief, je bent als beoordelaar vrij zeker van je oordeel, dat geeft vertrouwen.

 

Wat voor toekomst zien jullie voor D-PAC?

Wij hebben D-PAC gebruikt voor het beoordelen van teksten maar zoals de grote variatie aan projecten heeft aangetoond kan D-PAC op veel vlakken worden ingezet. Naast het puur beoordelen, kan D-PAC ook worden ingezet als feedback- en leerinstrument in scholen, bijvoorbeeld voor peer-assessment.

D-PAC levert betrouwbare beoordelingen op, het is heel eenvoudig in gebruik, werkt prettig en is in veel sectoren inzetbaar. Er is sowieso een grote markt voor dus met een beetje “chance” (lees: financiering) is er zeker een mooie toekomst weggelegd voor D-PAC.

 

Waar hebben jullie de D-PAC Award gelaten? Is het een wisselbeker die jullie ombeurten een dagje mee naar huis nemen? Of staat hij op een vaste plek?

Die staat te shinen op ons bureau, goed zichtbaar uiteraard. :)

D-PAC Inspiratie Award voor comparatief beoordelen1

Meer weten?

Bezoek de website van het project van Brenda & Nina: LIFT Writing Research.

Bekijk de andere 9 posters die meedongen naar de D-PAC Inspiratie Award

D-PAC wint de Prijs voor Examens van de NVE

Op 23 november won D-PAC de Prijs voor Examens tijdens het congres van de Nederlandse Vereniging voor Examens (NVE). We namen het op tegen vier andere indrukwekkende innovaties en zijn dus extra trots dat de jury D-PAC ziet als de bijzonderste recente prestatie op het gebied van toetsing en beoordeling.

 

D-PAC wint de Prijs voor Examens van de Nederlandse Vereniging voor Examens

Renske Bouwer (tweede van links) met de juryprijs, links Hester Brenninkmeijer die met eX:plain de publieksprijs won

Uit het juryrapport

De jury koos D-PAC als winnaar om de volgende redenen:

  • Het concept is volledig en heeft reeds resultaat geboekt.
  • De tool is direct bruikbaar en er wordt zichtbaar aandacht besteed aan ondersteuning van (potentiële) gebruikers middels video’s en instructies.
  • De tool is professioneel vormgegeven en gebruiksvriendelijk.
  • De tool is nog steeds in ontwikkeling (doorontwikkeling qua nieuwe features en het doorvoeren van verbeteringen).

Prijs voor Examens

De NVE kent een Prijs voor Examens toe voor een bijzondere, recente prestatie op het gebied van toetsing, beoordeling en examinering. De prijs wordt tweejaarlijks toegekend en uitgereikt tijdens het NVE-congres aan een persoon, een groep personen of een instelling. Een jury beoordeelt de inzendingen aan de hand van onderstaande criteria:

  • creativiteit en inventiviteit,
  • waardevolheid voor anderen in de toets- en examenpraktijk,
  • overdraagbaarheid naar andere toetssituaties,
  • toetskwaliteit.

Bekijk de andere genomineerden op de website van de NVE

D-PAC wint Prijs voor Examens

D-PAC successfully handles video-material on large scale

A first pairwise comparison experiment with video material in D-PAC is successfully completed. The goal of this experiment was twofolded: (1) test the tool on the scalability using videos; (2) and test the inter-rater reliability.

A group of 134 students in Education Sciences had to judge 9 clips on the quality of the simulated scientific semi-structured interview demonstrated. The pairwise comparisons were all scheduled synchronously. So, in total 134 assessors were simultaneously interacting with the D-PAC system which was sending out video clips to these assessors. During the experiment no technological issues arose, leading to a very positive conclusion on the scalability of the D-PAC tool.

In order to test the inter-rater reliability the group of assessors was split in three random groups consisting out of 46, 44 and 44 assessors. All of the groups assessed the video’s in a comparative manner. The only difference between the groups was in terms of providing feedback when every comparison was completed. Group 1 was not specifically instructed to give any argumentation or feedback during the process. The second group was asked to give a short overall argumentation for their choice after each comparison. Group 3 was asked to write down some positive and negative features of each interview after each comparison. The amount of comparisons each group made was 520, 354 and 351 comparisons, respectively.

Based on the pairwise comparison data we calculated the Scale Separation Reliability for each of the three groups of assessors separately. The results are given in Table 1. From this table it can be seen that the reliabilities are high (.91 – .93).

Table 1. Scale separation reliability and average number of comparisons per video

Scale Separation Reliability Average number comparisons per video
Group 1 .93 104
Group 2 .93 79
Group 3 .91 78

 

To provide an answer on the question of inter-rater reliability we calculated the correlations between the estimated abilities (based on the Bradley-Terry –Luce Model) of each of the three assessments (see Table 2).  The Spearman rank correlations between the two assessments in which assessors had to provide an argumentation (Group 2) and where assessors had to provide feedback (Group 3) is the highest (.87). The Spearman rank correlations between the scores resulting from the assessment without any argumentation (Group 1) and the two other conditions are somewhat smaller (.82 and .84). Overall these correlations are high.

 

Table 2. Spearman Rank Correlations between scores coming from the 3 groups of assessors

Group 1 Group 2 Group 3
Group 1 1
Group 2 .82 1
Group 3 .84 .87 1

 

Given that each of the 36 possible pairs were assessed by multiple assessors within and between the three groups, we were able to calculate the agreement between assessors for each possible pair. In Figure 1 the agreement is plotted per pair, split up for the three groups of assessors. As shown, the average agreement in each group overall is around 77%. For some pairs the agreement is only 50%, for other pairs the agreement is 100%. These differences can, of course be partially attributed to the fact that in some of the pairs are more difficult to judge than some other pairs. Comparing the results of the three groups showed no significant differences.

fig 1 blog 3

To conclude, this pairwise comparison experiment first of all demonstrates the robustness of the tool to deal with large numbers of assessors assessing video clips simultaneously. From the resulting scales and pairwise comparison data learned us that the inter-rater reliability seems to be rather high as well.