Een stop aan het bandwerk in onderzoek?!

Kan Machine Learning het manuele codeerwerk reduceren?

door: Sven De Maeyer

 

Alle onderzoekers, spits de oren. Wat je te lezen krijgt heeft de potentie om het saaie bandwerk van uren en dagen manueel coderen definitief achter je te laten. Het is allicht herkenbaar. Als we veel data willen dan houden we het vooral zo gestructureerd en gesloten mogelijk. Bij surveys stellen we het liefst (om het haalbaar te houden) geen open vragen aan de respondenten. En interviews beperk je ook tot een haalbaar aantal. Want hoeveel tijd gaat dat straks niet kosten om dat allemaal manueel te verwerken?

Hmm, “manueel” … is dat een woord dat nog hoort in deze tijd van Artificiële Intelligentie, Machine Learning, Deep Learning, Data mining, tekst mining, … en alle andere termen die we vanuit de computerwetenschappen naar het hoofd geslingerd krijgen? We deden de proef op de som en onderzochten de potentie van Machine Learning. De resultaten zijn alvast hoopgevend.

 

Een casus

Om dit te onderzoeken dook ik wat dieper in het materiaal uit het d-pac project wat zich buigt over de sterktes en zwaktes van Paarsgewijs Vergelijken als beoordelingsmethode. Eén van de onderzoekers (Marije Lesterhuis) heeft zich – vanuit de bezorgdheid rond validiteit – geworpen op de vraag:

 

“Welke aspecten nemen beoordelaars mee in hun beslissing als ze dienen aan te geven dat tekst A beter is dan tekst B?”

 

Om hierop een antwoord te kunnen formuleren vroeg ze aan 64 beoordelaars om samen bijna 2600 vergelijkingen te maken van teksten geschreven door 135 leerlingen uit het 5dejaar aso. De leerlingen schreven argumentatieve teksten waarin ze een onderbouwde opinie formuleerden over een onderwerp.

Beoordelaars kregen een set van willekeurig samengestelde paren van teksten voorgeschoteld en dienden 2 vragen te beantwoorden:

  • Welke tekst vind je beter?
  • Licht kort je keuze toe.

De tweede vraag resulteerde in wat we ‘decision statements’ noemen, een onderbouwing van de beoordelaars waarom ze de ene tekst beter vinden dan de andere. Dit is de input die Marije hanteerde om een antwoord te krijgen op haar onderzoeksvraag. Ze ging aan de slag met deze 2600 decision statements en codeerde deze (samen met collega’s) o.a. op 7 aspecten van tekstkwaliteit: argumentatie, organisatie, taalgebruik, taalconventies, referenties, brongebruik en layout.

Een voorbeeldje van zo’n decision statement:

 

“Ondanks de kleine schrijffouten zag de tekst er 1. Mooier qua structuur uit en 2. Werd er naar mijn mening meer argumentatie gebruikt. Men sprak over persoonlijke en economische motieven en verwees naar belangrijke bronnen. Dit ontbrak nogal in de rechtertekst.”

 

Ik hoor je al denken, waar zit nu de Machine Learning? Wel, de vraag die ik had, luidde: kan de computer straks een decision statement automatisch coderen en zo bv. vaststellen dat de beoordelaar verwijst naar taalconventies ?

Het antwoord is ronduit positief! Een tabelletje om dit te onderbouwen met daarin de vergelijking tussen ‘mens’ en ‘machine’. Hoe goed kan de computer de beoordelingen van Marije evenaren?

Overzicht_ML_Performance

Een hele hoop cijfers! Maar, als je weet dat zowel Accuracy, Sensitivity en Specificity de overeenkomst uitdrukken in proporties (0 = 0% overeenkomst en 1=100% overeenkomst) tussen de computer en Marije, dan begint het misschien al door te dringen. Dit is positief nieuws. Kijken we bv. naar de code “taalconventies” dan leren we dat het algoritme 99% van de decision statements correct codeert. Een sensitiviteit van 95,8% leert ons dat het algoritme bijna alle decision statements die Marije codeerde als ‘taalconventies’ gelijkaardig codeert. En, een Kappa van 0,96 is een cijfer waar je nooit geraakt als je meerdere mensen aan het coderen zet.

 

Wat betekent dit nu?

Conclusie van het verhaal: de computer maakt straks zeer weinig fouten als er nieuwe decision statements gecodeerd moeten worden!

Dit opent uiteraard perspectieven. Zo kan Marije deze coderingen in het vervolg aan de computer overlaten. Of stel je voor dat je d-pac hanteert om studenten zelf inzicht te geven in hun ideeën over wat een goede tekst is. Dan kan je nu geheel automatisch studenten hun decision statements ontrafelen en feedback geven aan studenten. Hoe krachtig is het niet dat je een student straks kan teruggeven:

 

“Jij let blijkbaar zelf veel op taalconventies (schrijffouten etc.) en zelden of nooit heb je oog voor de structuur van een tekst. Bekijk een volgende set van teksten eens meer vanuit dit oogpunt.”

 

Uiteraard gaat dit geheel niet zonder risico’s. Eén van de belangrijkste risico’s blijft:

 

“Rubish in = Rubish out”.

 

Heb je als onderzoeker slecht gecodeerd dan gaat de machine vooral goed zijn in het na-apen van jouw slecht codeerwerk. Kwaliteitscontrole van de input voor zo’n Machine Learning algoritme blijft van groot belang.

Machine Learning heeft duidelijk veel potentieel voor onderzoekers. We hebben maar een tipje van de ijsberg aan mogelijkheden gezien. Stel je maar eens voor wat er nog allemaal mogelijk is. Als dit goed werkt zet dit de deur open naar grotere kwalitatieve dataverzamelingen en een uitgebreider gebruik van open velden in surveys. Immers, je zou ervoor kunnen opteren om als onderzoeker slechts een subset manueel te coderen als input om de computer te trainen. Nadien heb je dankzij de computer een grote set van gecodeerde data. Het zet ook de deur open naar grootschaligere documentanalyses (bv. het systematisch coderen van de rijkdom aan inspectieverslagen – ik zeg maar wat).

In een korte brainstorm binnen het EduBROn-team zagen we alvast veel potentie en uitdagingen. Heb je zin om samen met ons deze veel belovende piste verder te verkennen en mee op ontdekkingsreis te gaan, dan vind je in mij alvast een gepassioneerd reisgezel. Aarzel niet om nieuwe ideeën te posten of contact op te nemen.

Interview met winnaars D-PAC Inspiratie Award

Een schaal ontwikkelen met D-PAC en daar vervolgens 2700 teksten mee beoordelen. Onderzoekers Nina Vandermeulen & Brenda van den Broek wonnen op 15 november met hun prachtige poster over dit onderzoek de D-PAC Inspiratie Award. Wat kunnen zij ons – als ervaringsdeskundigen – leren over comparatief beoordelen?

 

D-PAC Inspiratie Award voor comparatief beoordelen3

Brenda (l) & Nina (r) nemen de D-PAC Inspiratie Award in ontvangst

 

Waar hebben jullie D-PAC voor gebruikt en hoe hebben jullie dat aangepakt?

We hebben D-PAC gebruikt voor het opstellen van een betrouwbaar beoordelings- en feedbackinstrument. We hielden een nationale peiling naar de schrijfvaardigheid van vwo-leerlingen in Nederland en verzamelden zo 2700 syntheseteksten (teksten gebaseerd op verschillende bronnen). We hebben een deel daarvan (300 teksten) beoordeeld met D-PAC op vijf verschillende criteria:

  1. volledigheid, correctheid en relevantie van de informatie
  2. integratie van de bronnen
  3. samenhang (cohesie en coherentie)
  4. taal
  5. algemeen/globaal oordeel

Poster4

Winnende poster D-PAC Inspiratie Award (klik voor groter formaat)

Vervolgens hebben we de vijf schalen die D-PAC opleverde onderverdeeld in vijf kwaliteitscategorieën (oplopend van zeer zwak tot zeer sterk) en zijn we op zoek gegaan naar een representatieve tekst voor elke categorie. Dat was steeds een tekst die zowel globaal als op de vier criteria apart ongeveer dezelfde score had.

Op deze manier hielden we een schaal over met vijf ankerteksten: één gemiddelde tekst en twee (veel) hoger en twee (veel) lager scorende teksten. Deze schaal met ankerteksten is gebruikt om de andere teksten uit onze nationale peiling te beoordelen. Daarnaast gaan we hem ook inzetten om feedback te geven aan leerlingen.

 

Waarom kozen jullie voor D-PAC?

Vooral vanwege de gebruiksvriendelijkheid, zowel voor ons als onderzoekers (geen gedoe met pakketjes opsturen, verwerking achteraf) als voor de beoordelaars (heel intuïtieve manier van beoordelen, twee teksten vergelijken naast elkaar op scherm werkt prettig).

We hadden op PhD-bijeenkomsten kennisgemaakt met Marije Lesterhuis, onderzoeker bij D-PAC, en leerden zo de tool kennen.

 

D-PAC levert betrouwbare beoordelingen op, het is heel eenvoudig in gebruik, werkt prettig en is in veel sectoren inzetbaar.

 

Wat werkte goed?

De vlotte samenwerking met het D-PAC team: na het aanleveren van de data had het D-PAC team heel snel de assessments opgezet. Alle beoordelaars hadden ook binnen de tijd hun beoordelingen afgerond, er was geen uitval. Dat wijst er volgens ons ook op dat het voor hen een prettige ervaring was. Het strookt ook met onze eigen ervaring (want we hebben zelf ook al beoordeeld met D-PAC): het werkt heel intuïtief, je bent als beoordelaar vrij zeker van je oordeel, dat geeft vertrouwen.

 

D-PAC Inspiratie Award voor comparatief beoordelen2

Onderzoekers Brenda & Nina met hun award

 

Wat was lastig?

Eigen aan beoordelen: de betrouwbaarheid. We hebben voor sommige assessments nog een extra beoordelaar moeten inroepen omdat onze betrouwbaarheid (net iets) te laag was voor onderzoeksdoeleinden. We waren overigens in eerste instantie voor het minimum aantal vergelijkingen gegaan en wisten dus dat het zou kunnen dat we beoordelaars zouden moeten toevoegen.

Het goede aan D-PAC is dat je heel makkelijk beoordelaars kan toevoegen om tot een betere betrouwbaarheid van je beoordeling te komen, behalve een extra beoordelaar zoeken heb je hier als onderzoeker verder geen werk aan.

 

Wat zou je een volgende keer anders doen?

Niks! We zouden het zo opnieuw doen!

 

Zijn jullie geïnspireerd geraakt door D-PAC en hoe dan?

Ja, zeker! Aangezien we nu een mooie betrouwbare schaal gemaakt hebben met D-PAC zijn we heel benieuwd naar de verdere ontwikkeling van het plaatsingsalgoritme. In de toekomst zouden we dit graag gebruiken: we stoppen onze schaal in D-PAC en nieuwe teksten kunnen dan in D-PAC beoordeeld worden door vergelijking met de schaal. Dit is niet enkel inzetbaar voor ons als onderzoekers maar zou ook in klassen kunnen worden ingezet: leerlingen zouden er dan er zelf mee aan de slag kunnen als leerproces.

 

Het werkt heel intuïtief, je bent als beoordelaar vrij zeker van je oordeel, dat geeft vertrouwen.

 

Wat voor toekomst zien jullie voor D-PAC?

Wij hebben D-PAC gebruikt voor het beoordelen van teksten maar zoals de grote variatie aan projecten heeft aangetoond kan D-PAC op veel vlakken worden ingezet. Naast het puur beoordelen, kan D-PAC ook worden ingezet als feedback- en leerinstrument in scholen, bijvoorbeeld voor peer-assessment.

D-PAC levert betrouwbare beoordelingen op, het is heel eenvoudig in gebruik, werkt prettig en is in veel sectoren inzetbaar. Er is sowieso een grote markt voor dus met een beetje “chance” (lees: financiering) is er zeker een mooie toekomst weggelegd voor D-PAC.

 

Waar hebben jullie de D-PAC Award gelaten? Is het een wisselbeker die jullie ombeurten een dagje mee naar huis nemen? Of staat hij op een vaste plek?

Die staat te shinen op ons bureau, goed zichtbaar uiteraard. :)

D-PAC Inspiratie Award voor comparatief beoordelen1

Meer weten?

Bezoek de website van het project van Brenda & Nina: LIFT Writing Research.

Bekijk de andere 9 posters die meedongen naar de D-PAC Inspiratie Award

D-PAC wint de Prijs voor Examens van de NVE

Op 23 november won D-PAC de Prijs voor Examens tijdens het congres van de Nederlandse Vereniging voor Examens (NVE). We namen het op tegen vier andere indrukwekkende innovaties en zijn dus extra trots dat de jury D-PAC ziet als de bijzonderste recente prestatie op het gebied van toetsing en beoordeling.

 

D-PAC wint de Prijs voor Examens van de Nederlandse Vereniging voor Examens

Renske Bouwer (tweede van links) met de juryprijs, links Hester Brenninkmeijer die met eX:plain de publieksprijs won

Uit het juryrapport

De jury koos D-PAC als winnaar om de volgende redenen:

  • Het concept is volledig en heeft reeds resultaat geboekt.
  • De tool is direct bruikbaar en er wordt zichtbaar aandacht besteed aan ondersteuning van (potentiële) gebruikers middels video’s en instructies.
  • De tool is professioneel vormgegeven en gebruiksvriendelijk.
  • De tool is nog steeds in ontwikkeling (doorontwikkeling qua nieuwe features en het doorvoeren van verbeteringen).

Prijs voor Examens

De NVE kent een Prijs voor Examens toe voor een bijzondere, recente prestatie op het gebied van toetsing, beoordeling en examinering. De prijs wordt tweejaarlijks toegekend en uitgereikt tijdens het NVE-congres aan een persoon, een groep personen of een instelling. Een jury beoordeelt de inzendingen aan de hand van onderstaande criteria:

  • creativiteit en inventiviteit,
  • waardevolheid voor anderen in de toets- en examenpraktijk,
  • overdraagbaarheid naar andere toetssituaties,
  • toetskwaliteit.

Bekijk de andere genomineerden op de website van de NVE

D-PAC wint Prijs voor Examens

D-PAC successfully handles video-material on large scale

A first pairwise comparison experiment with video material in D-PAC is successfully completed. The goal of this experiment was twofolded: (1) test the tool on the scalability using videos; (2) and test the inter-rater reliability.

A group of 134 students in Education Sciences had to judge 9 clips on the quality of the simulated scientific semi-structured interview demonstrated. The pairwise comparisons were all scheduled synchronously. So, in total 134 assessors were simultaneously interacting with the D-PAC system which was sending out video clips to these assessors. During the experiment no technological issues arose, leading to a very positive conclusion on the scalability of the D-PAC tool.

In order to test the inter-rater reliability the group of assessors was split in three random groups consisting out of 46, 44 and 44 assessors. All of the groups assessed the video’s in a comparative manner. The only difference between the groups was in terms of providing feedback when every comparison was completed. Group 1 was not specifically instructed to give any argumentation or feedback during the process. The second group was asked to give a short overall argumentation for their choice after each comparison. Group 3 was asked to write down some positive and negative features of each interview after each comparison. The amount of comparisons each group made was 520, 354 and 351 comparisons, respectively.

Based on the pairwise comparison data we calculated the Scale Separation Reliability for each of the three groups of assessors separately. The results are given in Table 1. From this table it can be seen that the reliabilities are high (.91 – .93).

Table 1. Scale separation reliability and average number of comparisons per video

Scale Separation Reliability Average number comparisons per video
Group 1 .93 104
Group 2 .93 79
Group 3 .91 78

 

To provide an answer on the question of inter-rater reliability we calculated the correlations between the estimated abilities (based on the Bradley-Terry –Luce Model) of each of the three assessments (see Table 2).  The Spearman rank correlations between the two assessments in which assessors had to provide an argumentation (Group 2) and where assessors had to provide feedback (Group 3) is the highest (.87). The Spearman rank correlations between the scores resulting from the assessment without any argumentation (Group 1) and the two other conditions are somewhat smaller (.82 and .84). Overall these correlations are high.

 

Table 2. Spearman Rank Correlations between scores coming from the 3 groups of assessors

Group 1 Group 2 Group 3
Group 1 1
Group 2 .82 1
Group 3 .84 .87 1

 

Given that each of the 36 possible pairs were assessed by multiple assessors within and between the three groups, we were able to calculate the agreement between assessors for each possible pair. In Figure 1 the agreement is plotted per pair, split up for the three groups of assessors. As shown, the average agreement in each group overall is around 77%. For some pairs the agreement is only 50%, for other pairs the agreement is 100%. These differences can, of course be partially attributed to the fact that in some of the pairs are more difficult to judge than some other pairs. Comparing the results of the three groups showed no significant differences.

fig 1 blog 3

To conclude, this pairwise comparison experiment first of all demonstrates the robustness of the tool to deal with large numbers of assessors assessing video clips simultaneously. From the resulting scales and pairwise comparison data learned us that the inter-rater reliability seems to be rather high as well.