Wat zijn de vier soorten machine learning?
Machine learning-modellen worden doorgaans gegroepeerd op basis van de manier waarop ze leren. De vier meest voorkomende vormen van machine learning zijn supervised learning, unsupervised learning, semi-supervised learning en reinforcement learning. Deze indeling is echter breed van opzet, en veel modellen bevatten elementen uit meerdere categorieën. Zo kunnen deep learning-modellen onder elk van deze vier categorieën vallen.
Wat het juiste type machine learning voor een taak is, hangt grotendeels af van het specifieke doel en de dataset waarmee een datawetenschapper werkt. Vaak worden algoritmen aangepast aan de specifieke uitdagingen die datawetenschappers (of hun gebruikers) tegenkomen. Om te bepalen welk machine learning-model het beste aansluit op jouw behoeften, is het belangrijk om te begrijpen hoe elk algoritme functioneert.
Hoe werkt supervised learning?
Supervised machine learning (of kortweg supervised learning) werkt met gelabelde trainingsdata. Datawetenschappers voorzien gelabelde data van één of meerdere tags om het algoritme nuttige context te bieden, zoals specifieke categorieën of numerieke waarden. Zo kan een verzameling e-mails bijvoorbeeld worden gelabeld als 'spam' of 'geen spam', zodat het machine learning-algoritme een gestructureerde richtlijn krijgt om van te leren.
Door de relatie tussen de input (data) en de output (labels) te analyseren, leert het algoritme de data aan de juiste labels te koppelen. Zodra de training is voltooid en de gewichten correct zijn ingesteld, kan het model voorspellingen doen voor nieuwe data. Door de relatieve eenvoud is dit momenteel de meest gebruikte vorm van machine learning. Technieken die bij supervised learning worden gebruikt, zijn onder andere:
- Lineaire regressie: legt een lineaire relatie tussen een afhankelijke variabele (de input, bijvoorbeeld advertentie-uitgaven) en een onafhankelijke variabele (de output, bijvoorbeeld totale omzet) om toekomstige resultaten te voorspellen. Deze techniek wordt gebruikt om te schatten hoe sterk de relatie tussen variabelen is en wat de waarde van de afhankelijke variabele is bij een specifieke waarde van de onafhankelijke variabele. Bijvoorbeeld hoe de tevredenheid van werknemers door salaris wordt beïnvloed.
- Logistische regressie: voorspelt de waarschijnlijkheid van een binaire uitkomst op basis van een of meer onafhankelijke variabelen. De uitkomsten zijn altijd binair, zoals ja/nee, 1/0, of waar/onwaar. Dit wordt voornamelijk gebruikt voor voorspellings- en classificatietaken, zoals het identificeren van het risico op personeelsverloop.
- Beslisbomen: modelleren toekomstige resultaten en voorspellingen door middel van vertakkende beslissingen, die samen een boomstructuur vormen. Deze vertakkingen categoriseren complexe datasets en identificeren manieren om data te groeperen en te visualiseren. Dit is handig bij het ontwikkelen van strategieën voor, bijvoorbeeld, het opstellen van een budget of het bepalen van de impact die de aanschaf van een nieuwe oplossing zal hebben.
Hoe werkt unsupervised learning?
Unsupervised machine learning (of kortweg unsupervised learning) werkt uitsluitend met ongelabelde datasets. Unsupervised ML-algoritmen analyseren datasets op trends en clusteren datapunten daarbij in verschillende sets. Deze algoritmen werken met minder menselijke tussenkomst en ontdekken vaak patronen in data die normaal verborgen zouden blijven.
Hoewel unsupervised learning voornamelijk wordt gebruikt voor het clusteren van data, zijn er veel gebieden waarbij het van pas komt. Veelgebruikte toepassingen van unsupervised learning-algoritmen zijn onder andere:
- K-means clustering: verdeelt data in sets op basis van de overeenkomsten en ontdekt onderliggende patronen. K-means clustering-algoritmen zoeken naar een vast aantal clusters (K), bepaald door de datawetenschapper. Vanwege de eenvoud en doeltreffendheid is dit een van de populairste soorten clusteralgoritmen. Aanbevelingsengines, zoals die van socialmediaplatforms, gebruiken K-means clustering vaak om content voor te stellen op basis van eerder gedrag van gebruikers.
- Associatieregel: bepaalt de sterkte van relaties tussen data-items door te tellen hoe vaak ze samen voorkomen. Bedrijven kunnen hun strategie afstemmen door associaties te ontdekken die veel vaker voorkomen dan bij een willekeurige steekproef. Dit is met name nuttig voor het identificeren van kooptrends bij klanten, zoals producten die vaak samen worden gekocht.
- Reductie van dimensionaliteit: vereenvoudigt een dataset door overbodige kenmerken en ruis te verwijderen, terwijl essentiële dimensies behouden blijven. Bij grote datasets met veel verspreide of irrelevante data wordt de analyse veel eenvoudiger als er minder variabelen zijn. Een voorbeeld hiervan is technologie voor natuurlijke taalverwerking, waarbij vaak alleen de nuttige vocale kenmerken voor spraakherkenning worden uitgelicht.
Hoe werkt semi-supervised learning?
De naam zegt het al: semi-supervised machine learning (of kortweg semi-supervised learning) overbrugt de kloof tussen supervised en unsupervised learning. Semi-supervised learning-modellen gebruiken zowel gelabelde als ongelabelde data tijdens het trainingsproces. Door kleine hoeveelheden gelabelde data in een algoritme in te voeren, kan het de opgedane kennis toepassen op de volledige set ongelabelde data. Semi-supervised learning is vaak een efficiënte oplossing omdat het labelen van data soms een vervelend en kostbaar proces is.
Omdat semi-supervised learning een middenweg is tussen de twee eerder genoemde methoden, blijven de toepassingen vergelijkbaar. Hier volgen drie situaties waarbij semi-supervised learning waardevol kan zijn:
- Fraudeopsporing: wanneer een financieel team slechts enkele bevestigde gevallen van fraude heeft, kunnen semi-supervised learning-systemen leren van deze kleinere dataset. Fraude is niet alleen ongewoon, maar ook moeilijk op te sporen, en met deze aanpak hoeven accountants niet langer duizenden transacties door te spitten.
- Classificatie van content: het doorlezen en annoteren van grote hoeveelheden content kan mensen ongelooflijk veel tijd kosten. Met semi-supervised learning hoeven menselijke annotators slechts een kleine set handmatig gelabelde voorbeelden te verzamelen. Dit kan worden toegepast op alles van het classificeren van webpagina's voor zoekmachines tot het indelen van inkomende e-mails voor e-mailprogramma's.
- Spraakherkenning: het vastleggen van de diversiteit en variatie in menselijke spraak, inclusief accenten en stemverschillen, vormt een grote uitdaging. Semi-supervised learning begint met een kleine trainingsset van door mensen geannoteerde audio en voert vervolgens zelflerende processen uit. In zelftrainingstests van Meta daalde het aantal woordfouten met 33,9%.
Hoe werkt reinforcement learning?
Reinforcement machine learning(of kortweg reinforcement learning) werkt op basis van 'vallen en opstaan'. In tegenstelling tot andere methoden is een reinforcement learning-algoritme geprogrammeerd met een specifiek doel en een duidelijke set regels die moeten worden gevolgd. De datawetenschapper voegt daar ook een puntensysteem aan toe: positieve resultaten leveren punten op en negatieve resultaten kosten juist punten. Deze feedbackloop helpt om resultaten op den duur te verbeteren.
Reinforcement machine learning-algoritmen zijn het nuttigst in scenario's waarin beslissingen in een bepaalde volgorde moeten worden genomen, zoals bij games, robotica of projectmanagement. Door de efficiëntste route naar maximale beloning te vinden, kan reinforcement learning dienen als een krachtig instrument voor besluitvorming.