Hoe machine learning de interim sector aan het veranderen is

Leestijd: 7 minuten, datum: 03-06-2021

Elk jaar worden honderden miljarden geïnvesteerd in nieuw onderzoek naar kunstmatige intelligentie en machine learning. De ontwikkelingen gaan daardoor snel, elk jaar komen nieuwe technieken beschikbaar.

Steeds meer sectoren worden opgeschud door machine learning, waarbij processen efficiënter en kwalitatief beter worden gemaakt. Ook in de interimsector zijn de eerste ontwikkelingen te zien waarbij machine learning wordt toegepast.

In deze blog wordt eerst gekeken wat machine learning precies is, daarna wat er voor nodig is om de ‘gevaren’ van machine learning te voorkomen en ten slotte belichten we hoe machine learning wordt toegepast binnen de interim sector.

Scan van een hoofd

Wat is machine learning?

Machine learning is een vorm van kunstmatige intelligentie die gericht is op het uitvoeren van taken aan de hand van data. Machine learning onderscheid zich van andere algoritmes doordat het eerst aan de hand van data iets leert (de trainingsfase). Als dit trainen is afgerond, kan het algoritme in productie worden gebruikt. Daar zal het algoritme uit zichzelf beslissingen of voorspellingen maken aan de hand van nieuwe data.

Aan de hand van het onderstaande voorbeeld wordt duidelijk wat er bij machine learning onder de motorkap gebeurt.

Machine learning voorbeeld: het voorspellen van de huizenprijs

Het eerste project van veel data scientists (het vakgebied wat zich richt op data onderzoek) in spe is het maken van een machine learning algoritme dat de huizenprijs kan voorspellen. De huizenprijs wordt door verschillende variabelen bepaald, zoals locatie, perceelgrootte, inhoud, aantal slaapkamers. 

Stap 1: het verkrijgen van een dataset.

Door bijvoorbeeld de data van het Kadaster te halen, kan een dataset gemaakt worden. Deze dataset bestaat uit rijen waar per rij een huis staat met de bovengenoemde variabelen en een label, in dit geval de huizenprijs (verkoopprijs). Eerst kijken data scientists naar de variabelen. Door de variabelen te plotten tegen het label, kan soms al een duidelijk verband gezien worden. Als we de inhoud van 30 huizen in centraal Nederland plotten tegenover de huizenprijs, wordt de volgende grafiek zichtbaar:

De huizenprijs per inhoud (m3)
Grafiek huizenprijs

Stap 2: de trainingsfase.

Met de data van de 30 huizen kunnen we een simpel machine learning algoritme bouwen dat een grove schatting van de huizenprijs kan maken aan de hand van de inhoud.

Een goed bruikbaar algoritme is het lineaire regressiemodel. Bij dit model trekt het algoritme een lijn waarbij de gemiddelde afstand tussen de verschillende datapunten op de grafiek en de lijn zo klein mogelijk is. Bij veel algoritmen wordt de eerste lijn willekeurig getrokken, waarbij de gemiddelde afstand tussen de punten op de grafiek wordt gemeten met de lijn. Vervolgens wordt de lijn in een stapje vanaf de oude positie verplaatst. Indien dit een lager gemiddelde en dus een kleinere afstand oplevert, gaat het algoritme vanaf hier verder, anders probeert het algoritme een andere stop of stopt het als het een optimaal punt heeft bereikt.

Onderstaand is te zien hoe het algoritme een stap in de goede richting maakt:

Het algoritme traint zichzelf
Machine learning training grafiek

Als het algoritme klaar is met trainen, zal de grafiek er als volgt uit zien:

Het algoritme traint zichzelf
Machine learning model grafiek

Voor nieuwe gevallen waar nog geen huizenprijs voor beschikbaar is, kunnen we nu toch al een indicatie maken. Een huis met een inhoud van 100m3 zal een huizenprijs van rond €420.000 hebben.

Het bovenstaande model kunnen we preciezer maken door meer variabelen toe te voegen. Een voorbeeld zou een model zijn dat naast de inhoud van een huis ook de afstand tot een stadskern meeneemt. Het model zal dan voor de twee variabelen de ideale verhouding moeten vinden zodat het zo goed mogelijk voorspellingen leert maken. Dit doet het door een gewicht toe te kennen aan elk variabele. Als een variabele belangrijk is om een voorspelling te maken, dan zal het gewicht van deze variabele in het model toenemen. De optimalisatie methode blijft hetzelfde als in het bovenstaande voorbeeld. Het model probeert een zo klein mogelijk verschil te krijgen tussen de voorspelling en het label van trainingsdata. 

Stap 3: monitoring in productie

Als het algoritme in productie wordt genomen (het algoritme wordt daadwerkelijk gebruikt om voor echte klanten voorspellingen te maken) is het belangrijk om steekproefsgewijs het model te blijven testen op het gewenste resultaat. Ook kunnen trends veranderen en is het daarom van belang om het algoritme relevant te houden door het met nieuwe data te blijven trainen.

De goede werking van algoritmen bewaken

Zoals bij alle onderzoeken aan de hand van data is het soms lastig om vooroordelen te voorkomen. Vooroordelen kunnen ontstaan als mensen verkeerde labels maken van een dataset (bijvoorbeeld door het (bewust of onbewust) discrimineren bij het selecteren van een ‘juiste’ match).

Er zijn 3 potentiële valkuilen waarvoor je moet waken bij het trainen van het algoritme:

  • De fouten die door mensen zijn gemaakt (bijvoorbeeld door data verkeerd te labelen), worden dan door het machine learning algoritme overgenomen.
  • Als data uit een (te) eenzijdige hoek komt, worden nieuwe, onbekende gevallen niet goed geclassificeerd door het model.
  • Een algoritme legt niet uit waarom een bepaalde keuze wordt gemaakt. Dit heeft als resultaat dat verkeerde of bevooroordeelde keuzes kunnen worden gemaakt, zonder dat gemeld wordt dat dit en waarom dit gebeurt. 

Deze drie problemen kunnen gelukkig worden voorkomen.

Het is ten eerste belangrijk om ervoor te zorgen dat niet met een te kleine en eenzijdige dataset een algoritme wordt gemaakt. De volgende stap is om het getrainde algoritme te testen, door bijvoorbeeld individuele gevallen te laten beoordelen door het algoritme. Geeft dit wel de gewenste resultaten? Vervolgens kan het algoritme in productie, waarbij monitoring belangrijk is.

Goede monitoring houdt in dat af en toe een blinde steekproef moet worden gedaan, om te kijken of het model het gewenste resultaat geeft. Daarnaast kan het model worden doorgemeten aan de hand van statistieken als precisie en sensitiviteit. Deze statistieken geven aan hoe goed het model zijn voorspellingen blijft maken aan de hand van een dataset.

De uitlegbaarheid van machine learning blijft echter een probleem. Een model zal nooit zeggen waarom het een keuze maakt. Een manier om toch inzicht te verkrijgen is een diepteanalyse van de variabelen. Dan is goed te zien aan de hand van welke variabelen het model een keuze maakt, en kan de waarom enigszins afgeleid worden.

Toepassingen binnen de interimsector

Binnen de interimsector worden de eerste machine learning toepassingen ontwikkeld en gebruikt. Bijvoorbeeld bij het uitlezen van CV’s. CV’s hebben heel veel formaten en zijn daardoor moeilijk vergelijkbaar. Door de data uit te lezen met algoritmen en vervolgens te standaardiseren is het beter mogelijk om CV’s met elkaar te vergelijken, zodat het makkelijker is om tussen verschillende kandidaten de beste kandidaat uit te kiezen.

Een tweede toepassing binnen de interimsector is het optimaliseren van matches. Aan de hand van de historische competentie data van de kandidaat, opdracht aanvraag data van de opdrachtgever en het interpreteren van het gewicht van de vaardigheden kan een model getraind worden. Zoals hierboven beschreven is het vooral bij dit model erg belangrijk om met gevarieerde data te worden getraind en het model met een blinde steekproef (door externen) te controleren. Daarnaast kan gekeken worden naar het gewicht van de variabelen, zodat te zien is op basis van welke variabelen het model keuzes maakt. Deze drie stappen zorgen ervoor dat elke vorm van discriminatie kan worden uitgesloten.

Doordat enorm veel data wordt meegenomen, en wiskundig naar een optimaal evenwicht wordt gezocht, kan het model zo de beste matches maken. Als het aantal kandidaten oploopt berust de menselijke keuze op een beperkt aantal factoren. Voor het model maakt het niet uit of er uit 3 of 100 kandidaten gekozen moet worden, elk CV wordt volledig bekeken en de beste match blijft over. Dit is dan ook de grote kracht van InterimLife: binnen enkele seconden berekent het algoritme de beste match op jouw opdracht criteria en legt het uit waarom de kandidaat geselecteerd is.

“Hoe goed werkt matchen nu al”? Ervaar het zelf!

De toekomst is nu al hier. Het InterimLife algoritme matcht namelijk direct de beschikbare interim professionals op jouw opdracht.

De voordelen liggen voor de hand: je hoeft niet meer zelf te grasduinen in databases of alle aangeleverde CV’s te bekijken, de match in één duidelijk overzicht transparant uitgelicht waarna je kunt doorklikken binnen de interessante kandidaat profielen.

Doordat InterimLife matcht op zowel harde criteria (taken, functionele vaardigheden, certificaten, etc) als zachte criteria (persoonlijke vaardigheden) is de kwaliteit van matching zeer hoog.

Ook verkort InterimLife het inhuur proces dus aanzienlijk. In plaats van de opdracht bij diverse preferred suppliers neer te leggen en 3-5 dagen te moeten wachten, wordt er bij ons direct gematcht. Als laatste kunnen we de kosten voor jou laag houden doordat we een platform zijn.

Het InterimLife platform op desktopHet InterimLife platform op mobiel

Geïnteresseerd? Registreer dan gratis een account. InterimLife werkt op basis van ‘no match, no pay’, oftewel: je betaald alleen als er een succesvolle match tot stand is gekomen en jullie met elkaar in zee gaan.

Liever eerst een demo? Geen probleem! Wij demonstreren graag hoe InterimLife werkt en hoe de matching tot stand komt. Een gratis demo aanvragen kan via dit formulier.

Interessant artikel? Deel het!
Mattheüs de Koning
Auteur
Mattheüs de Koning
Verantwoordelijk voor het Machine Learning vraagstuk binnen InterimLife
LinkedIn Email
Op zoek naar IT‑professionals?
Het slimme platform van InterimLife matcht direct de beste interim-professional op jouw opdracht.
Ontdek hoe wij dit doen
Vraag een demo aan

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *