Schrijftaken goed beoordelen, hoe pak je dat het beste aan?

 

Tine Van Reeth, Elies Ghysebrechts & Jolien Polus, o.l.v. Jan T’Sas

 

Iedereen kent het beeld van een leraar die zich zuchtend doorheen een stapel essays worstelt. Elk werkstuk objectief beoordelen is een hele klus. Hoe quoteer je bijvoorbeeld een schrijfopdracht die inhoudelijk sterk is, maar vol spelfouten staat? Vaak ook hebben leraren een verschillend idee van wat een goed essay precies inhoudt. Wat de ene een vlotte schrijfstijl noemt, vindt de andere te informeel. In het kader van onze specifieke lerarenopleiding hebben wij in dat verband een mini-onderzoek opgezet. We vergeleken de gangbare beoordelingsmethode op basis van criteria met een alternatieve methode op basis van comparatief beoordelen. Onze conclusie? Schrijftaken door meerdere leraren laten beoordelen verhoogt de objectiviteit aanzienlijk. 0-1 voor D-PAC.

 

Rubrics or D-PAC to the rescue?

Naar aanleiding van een les Nederlands over recensies, schreven leerlingen uit een klas in het vijfde jaar ASO zelf één over een lied naar keuze. Recensies beoordelen is niet eenvoudig. Gelukkig zijn er hulpmiddelen voorhanden. Eén van de meest bekende is de rubric: een verbeterfiche bestaande uit verschillende relevante criteria (bv. opbouw & argumentatie, spelling & grammatica, stijl, …) waarop punten gegeven worden. Afhankelijk van het belang, kan het aantal te behalen punten voor elk criterium verschillend zijn. In samenspraak met een vakmentor Nederlands stelden we een rubric op. De leerlingen konden de meeste punten verdienen wanneer de recensie inhoudelijk goed was uitgewerkt. De overige criteria in de rubric waren taalgebruik (spelling en grammatica), zinsbouw, structuur, inleiding, woordaantal, stiptheid en originaliteit.

 

rubric_recensie

De leerkracht besprak de rubric vooraf in de klas.

 

Daarnaast zochten we contact met Maarten Goossens. Hij is als medewerker verbonden aan de Universiteit Antwerpen waar hij mee het project rond D-PAC coördineert. D-PAC staat voor het Digitaal Platform voor het Assessment van Competenties. Deze tool betrekt steeds meerdere beoordelaars, die elk meerdere schrijfopdrachten beoordelen. De schrijfopdrachten worden geüpload om vervolgens met elkaar vergeleken te worden. De leraren krijgen telkens twee recensies te zien en kiezen hieruit welke ze de beste vinden. Bij elke vergelijking die ze maken kunnen ze kort de sterke en zwakke punten van beide teksten noteren. Op basis van de keuzes van alle beoordelaars, maakt D-PAC een rangorde op, gaande van de minst goede recensie tot de best beoordeelde recensie. Aan deze rangorde kunnen de leraren vervolgens ook punten toekennen.

 

Rubrics leiden tot subjectiviteit

Ook al geeft een rubric houvast door duidelijk afgebakende criteria aan te bieden, het leidt toch tot grote verschillen in het eindcijfer.  We vroegen zes beoordelaars om twaalf recensies te verbeteren aan de hand van de rubric die we opstelden. Tegen onze verwachtingen in, lagen de punten sterk uiteen. Zo kreeg een bepaalde recensie van één van de beoordelaars 8/20, terwijl een andere beoordelaar vond dat dit werk 16 punten waard was. Figuur 1 laat zien dat beoordelaars ook met betrekking tot andere recensies onderling sterk verschilden in de punten die ze gaven.

 

grafiek blog Tine

Grote verschillen tussen beoordelaars ondanks het gebruik van rubrics.

 

Subjectiviteit bij rubrics verhelpen: wat werkt (niet)?

Het gebruik van een rubric leidt tot grote verschillen tussen de beoordelaars. Niet alleen op vlak van het punt dat zij toekennen, maar ook wat betreft de rangorde van de recensies op basis van deze punten. We bestudeerden namelijk ook de rangordes van elk van de beoordelaars omdat de waarde van een punt bij iedere leraar anders is. Overeenstemmende rangordes zouden er op kunnen wijzen dat de beoordelaars toch een gelijkaardig oordeel hebben over de onderlinge posities van de recensies in termen van beter en slechter. Dit was duidelijk niet het geval. Een recensie die bijvoorbeeld bovenaan in de rangorde van de ene beoordelaar stond, bevond zich bij een andere beoordelaar helemaal onderaan.

We konden de subjectiviteit wel enigszins uitschakelen door per recensie het gemiddelde cijfer van de zes beoordelaars te nemen. Het toegekende cijfer is zo minder afhankelijk is van één beoordelaar en vormt een objectievere maat. Het nadeel is echter dat de werklast voor de leerkrachten sterkt verhoogt. Elke schrijfopdracht moet dan namelijk door meerdere leraren beoordeeld worden, aan de hand van de verschillende criteria in de rubric.

 

 D-PAC: sterk op vlak van objectiviteit en snelheid

D-PAC is een objectievere beoordelingsmethode dan het individueel verbeteren aan de hand van rubrics. We lieten dezelfde twaalf recensies opnieuw verbeteren door dezelfde zes beoordelaars, maar dit keer met behulp van D-PAC. Wat bleek? De resulterende rangorde stemde in grote mate overeen met de rangorde van de gemiddelde scores aan de hand van de rubric. Een ander voordeel die de beoordelaars ervaarden, was dat D-PAC sneller verbetert. Vergelijken en de beste kiezen neemt minder tijd in beslag dan punten geven voor elk van de criteria in een rubric.

Leerkrachten kunnen de werklast delen en daar de vruchten van plukken. Wanneer elke opdracht door meerdere leraren beoordeeld wordt, verhoogt de objectiviteit aanzienlijk. Dat een leraar meer dan alleen zijn of haar eigen stapeltje essays dient te beoordelen wordt goedgemaakt door de efficiëntie van D-PAC: de tool vraagt enkel maar om te vergelijken en de beste uit elk paar te kiezen.

 

Meer weten?

Neem dan snel contact op met d-pac@uantwerpen.be

 

Using D-PAC for CV-screening

Comparative judgement is nowadays predominantly used in the educational domain. The D-PAC team aims to explore CJ’s strengths beyond this realm, for example in the recruitment and selection domain. Therefore, we conducted a try-out investigating whether or not D-PAC was successful when applied to CV-screening. Consequently we partnered with Hudson (http://be.hudson.com – a human resources consultancy company) using a received job opening from a client. Forty-two CV’s were received and D-PAC was used with 7 assessors to compare the CV’s. Assessors also provided pairwise feedback to justify each choice. The main questions were related to reliability and validity: (1) how reliable is the D-PAC assessment on CV screening with expert assessors (if the assessment would be performed again, how strongly will the ranking resemble the current one)? And (2) do all assessors look at the same and relevant criteria of the CV’s in relation to the job ad (validity)?

Results show that the assessment reached a high reliability (SSR = .88 – see figure 1). In addition to this, this high reliability was already achieved at 14 rounds. Moreover, inspecting the cut-off of acceptable reliability (SSR =.70), this was already accomplished after 9 rounds. The time investment of the total assessment was 11.5 hours, including pairwise feedback. However, since high reliability was already attained early on (9 rounds), this timing can be drastically reduced to 5 hours. Moreover, this time investment is still an overestimation, since in reality assessors do not provide feedback on the CV’s. To give an indication: it takes about 73 seconds to read two CV’s and decide which one is more in line with the job. If assessors have to give feedback to justify their choice, time increases to 90 seconds for each pair. To summarize, attaining a reliability of .70 without providing any feedback results in a time investment of 5 and a half minutes for each CV.

SSR round Hudson
Figure 1: Reliability (=SSR) of the CV-screening assessment. In total, 23 rounds were performed. Blue lines indicate different reliability levels. Reliability of .80 achieved at 14 rounds. Reliability of .70 achieved at 9 rounds

Additionally, assessors’ arguments were analysed to inspect the validity of the assessment. The main discussed themes were ‘work- and job-experience’, ‘education’, ‘over qualification’ and ‘job hopping’. Two themes were recurrent in all 7 assessors’ arguments: work- and job-experience and education. One theme was only discussed by one assessor: ‘age’. The top arguments per assessor are represented in figure 2. Most striking is that relevant experience and the amount of experience were most frequently mentioned by every assessor. Additionally, job hopping was mentioned a lot by assessor 2.

argumenten hudson
Figure 2: Top arguments given by all 7 assessors.

Next, we investigated which CV’s were in the lowest or highest position in the ranking and what type of comments they mainly received. Here, we found that when assessors mentioned something about candidates’ experience (or the lack of it), this CV had a higher chance to be lower ranked. On the other hand, when assessors discussed about candidates’ education, general experience, over qualification, bilingualism, job-hopping and the given explanation of experience, CV’s were more likely to end up at the higher part of the ranking (see table 1).

Arguments Low ranking High ranking
Amount of experience 40 26
Education 18 35
General experience 1 22
Overqualified 0 6
Bilingualism 2 8
Job-hopping 2 9
Explanation experience 0 6

Table 1: Arguments which differ between CV’s at the lower part of the ranking and the higher part of the ranking

To summarize, this try-out shows many opportunities. Firstly, it indicates that D-PAC is usable in a recruitment and selection domain, showing high reliabilities in a short amount of time. In addition to this, time investment will be reduced in future similar assessments, increasing its efficiency. Secondly, regarding the validity, the analyses of the provided arguments indicates that recruiters share the focus on relevant experience for this job. Next to this, recruiters differ in emphasis, each recruiter imposes different emphases during the assessment, which is captured when using multiple assessors. This further underpins the logic of including multiple assessors during a cv screening process.

Testimonial professor architecture

The next film is a testimony of an architecture professor who used D-AC for a peer assessment of mood boards. Because the movie is in Dutch, you can read a short summary of the main findings.





Summary
60 students were divided in groups of five. Each group had to create two mood boards resulting in 20 mood boards. These mood boards were uploaded in the D-PAC tool and the students made ten comparisons at home in which they judged the mood boards of their peers and provided feedback.

These comparisons resulted in a ranking of the poorest to the best mood board. So each group had two mood boards in the ranking. The students had to continue with the mood board that was ranked highest. Therefor they could use the feedback to improve their design.

The teacher used the rank order and the feedback from the students to discuss the results in group. He indicated a large time saving because all the students already had seen the mood boards and formed their opinions. Where normally the discussion of the mood boards lasted a whole day, now it lasted one hour using the rank order. According to the professor without sacrificing quality of the discussion, on the contrary.

Further, the professor indicate to save time in processing the results of the peer assessment afterwards as there was no processing because the results were automatically generated by the tool.

Also according to the professor, the learning effect by students of watching other peers’ work and formulating reasons why one was better than the other, was not to be underestimated.