Belastingdienst Fraud Detection: AI-gedreven Fraude Opsporing Implementatie

De Belastingdienst verwerkt jaarlijks ruim twaalf miljoen particuliere aangiften en meer dan een miljoen bedrijfsrapportages. Het oude regelgebaseerde detectieplatform stoelde op honderden losse businessrules die moeilijk waren bij te werken, vatbaar bleken voor katvangers en BTW-carrousels en bovenal teveel onschuldige burgers naar de FIOD doorverwezen. Dat leidde tot reputatierisico, een geschat belastinggat van 450 miljoen euro per jaar en forse druk op controleurs die minutenlang moesten wisselen tussen verouderde systemen om iedere aangifte te beoordelen. Bovendien voldeden de onderliggende datastromen niet meer aan de eisen van de Nederlandse Baseline voor Veilige Cloud, de BIO en de AVG, waardoor niet altijd herleidbaar was wie welke persoonsgegevens had geraadpleegd.

In 2023 startte de directie FIOD/Handhaving daarom een tweejarenprogramma dat technologie, proces en governance gelijktijdig vernieuwde. Azure Machine Learning, Microsoft Fabric en Purview vormen sindsdien het fundament voor datamanagement, modeltraining, MLOps en toezicht. Het productteam bundelt data scientists, fiscalisten, juristen en privacy officers die iedere sprint toetsen op uitlegbaarheid, privacy-by-design en functiescheiding. Door vanaf dag één te sturen op mens-in-de-loop, audit trails en een duidelijke batenhypothese kon de organisatie 47 fraudepatronen modelleren, 180 kenmerken standaardiseren en onderzoekscycli terugbrengen van dagen naar minuten, terwijl iedere voorspelling juridisch onderbouwd kan worden.

AI-programma met meetbare opbrengst

Het programma analyseert jaarlijks twaalf miljoen aangiften tegen 47 vastgelegde fraudepatronen en 180 kenmerken. Met een investering van 6,2 miljoen euro in twee jaar realiseerde de Belastingdienst 340 procent meer succesvolle detecties, een extra opbrengst van 87 miljoen euro, 67 procent minder fout-positieve signalen en 89 procent productiviteitswinst doordat de gemiddelde casetijd met 4,2 uur daalde.

Zet uitlegbare AI boven black-box prestaties

Fraudedetectie in een belastingcontext vraagt om modellen die in de rechtszaal uitgelegd kunnen worden. Een eerste deep learning model haalde weliswaar de hoogste nauwkeurigheid, maar leverde geen herleidbare motivering per aangifte en werd door juristen afgekeurd. Door over te stappen op gradient boosting en beslisbomen met SHAP-verklaringen bleef 92 procent van de accuraatheid behouden, terwijl iedere voorspelling onderbouwd kan worden met concrete factoren zoals afwijkende aftrekposten, netwerkrelaties of historische betalingsgedragingen. De belangrijkste les: optimaliseer nooit uitsluitend op precisie; maak duidelijk hoe het model tot zijn oordeel komt, borg versiebeheer en laat iedere AI-beslissing nog steeds door een menselijke behandelaar accorderen.

Machine Learning Models: Architecture en Training

De modelarchitectuur is ontworpen als een herleidbaar detectieraamwerk dat voldoet aan de Nederlandse Baseline voor Veilige Cloud en de BIO. Alle relevante bronsystemen leveren near-realtime extracties aan een Fabric lakehouse waarin standaardisatie plaatsvindt. Voor iedere aangifte worden 180 kenmerken opgebouwd, variërend van inkomensstromen en aftrekposten tot betalingsgedrag, indieningsmomenten en signalen van ketenpartners zoals UWV, banken en notarissen. Purview-labels en data policies zorgen ervoor dat gevoelige velden automatisch worden geclassificeerd, gepseudonimiseerd en alleen door geautoriseerde rollen ontsloten kunnen worden. Zo ontstaat een gecontroleerd speelveld waarin data scientists kunnen experimenteren zonder dat privacy of legal hold verplichtingen in het geding komen.

Kenmerkontwikkeling werd aangepakt als een gezamenlijke exercitie van data scientists, ervaren controleurs en juristen. Fraudehypotheses werden vertaald naar meetbare patronen, zoals een opeenvolging van BTW-teruggaven net onder de meldingsdrempel of een onnatuurlijke verhouding tussen inkomen en zorgkosten in een specifieke regio. Daarnaast werd netwerkcontext toegevoegd: adressen, IBANs, gemandateerde belastingadviseurs en telefoonranges worden geclusterd, waardoor katvangerconstructies en carousel-netwerken zichtbaar worden. Iedere nieuwe feature krijgt een dossier waarin de fiscale grondslag, de bron en de AVG-beoordeling van de Functionaris Gegevensbescherming zijn vastgelegd, zodat controleerbaar blijft waarom een signaal is toegestaan.

De trainingsset bestaat uit vijf jaar afgeronde onderzoeken waarin FIOD en Handhaving de uitkomst formeel hebben vastgesteld. Positieve cases zijn frauduleuze aangiften; negatieve cases komen uit steekproeven en reguliere aangiften. Omdat fraude zeldzaam is, wordt de dataset gebalanceerd via gewichtsfactoren, stratified sampling en synthetic minority over-sampling. Temporal cross-validation voorkomt dat modellen leren op hetzelfde belastingjaar waarop zij worden getest, terwijl concept drift dashboards continu bewaken of maatstaven verschuiven. Fairness-analyses zijn onderdeel van iedere sprintreview: juristen en ethische AI-specialisten toetsen of foutmarges gelijk blijven tussen leeftijdsgroepen, inkomenspercentielen en postcodeclusters. Indien bias optreedt, worden specifieke features verwijderd of worden de decision thresholds geherkalibreerd.

Na experimenten met neurale netwerken, generalized additive models en random forests koos het team voor een ensemble van gradient-boostingmachines, aangevuld met een compact feed-forward netwerk dat vooral relaties in keten- en netwerkdata oppikt. Deze combinatie bood de beste mix van uitlegbaarheid, stabiliteit en prestaties. Het boostingensemble behaalt een precision van 0,71 en een recall van 0,63, goed voor 340 procent meer succesvolle detecties ten opzichte van het oude regelsysteem. SHAP-verklaringen en lokale surrogate decision trees documenteren per aangifte welke factoren het oordeel beïnvloedden. Iedere modelversie doorloopt een MLOps-pijplijn met geautomatiseerde datakwaliteitstesten, bias dashboards, performance monitoring en een change record dat beschikbaar is voor de Auditdienst Rijk.

In productie worden alle aangiften gescoord zodra de syntactische validaties voorbij zijn. Het scoringscluster schrijft het model-ID, de datasetversie, hyperparameters en interpreteerbare verklaringen weg in een Immutable Evidence Store. Power BI-rapportages combineren operationele KPI’s (bijvoorbeeld aantal valse positieven per segment) met compliance-indicatoren rond logging, bewaartermijnen en toegangsbeheer. Wanneer prestaties onder gedefinieerde drempels komen, activeert het platform automatisch een rollback en herstelt het vorige model, terwijl incidenten direct aan de stuurgroep worden gemeld. Dankzij deze opzet behouden juristen, auditors en toezichthouders continu inzicht in hoe AI-beslissingen tot stand komen en kan de Belastingdienst aantonen dat innovaties volledig binnen AVG, BIO en Baseline blijven. Daarnaast voert het onafhankelijke kwaliteitsbureau van de Belastingdienst maandelijks audits uit op logboeken en reproduceerbaarheid, zodat rechtbanken het volledige besluitvormingsspoor kunnen opvragen zonder aanvullende handmatige reconstructies.

Human-in-the-Loop Workflows en Investigation Optimization

De risicoscore van het model fungeert als orkestmeester voor het volledige onderzoeksproces. In plaats van een first-in-first-out-queue kent het platform iedere aangifte een dynamische prioriteit toe op basis van drie componenten: de kans op fraude, de nettowerkscore die aangeeft of een aangifte onderdeel lijkt van een gecoördineerd netwerk en een impactindicator die het potentiële schadebedrag voorspelt. Dynamics 365 Casemanagement bouwt met die score automatisch een dossier waarin de relevante feiten, vergelijkbare historische casussen, het advies van het model en de juridische toetsing zijn samengebracht. Dat dossier bevat geen losse lijstjes maar verhalende toelichtingen, waardoor controleurs intuïtief zien waarom een aangifte voorrang heeft. Hoogrisicodossiers moeten binnen 48 uur worden opgepakt, middensegmenten volgen een steekproefprotocol en laagrisicosignalen worden automatisch afgehandeld, zodat burgers sneller duidelijkheid krijgen.

Het onderzoek zelf is herontworpen tot een gestroomlijnd, evidence-based proces. Waar controleurs voorheen in meerdere bronsystemen moesten zoeken, ontvangen zij nu een 360-gradenbeeld dat automatisch wordt opgebouwd op basis van de AI-uitkomst. Het dossier toont afwijkende posten, cashflow-analyses, signalen van ketenpartners, netwerkvisualisaties en aanbevelingen voor vervolgstappen. De gemiddelde doorlooptijd per zaak daalde van 7,8 uur naar 3,6 uur. Tegelijkertijd steeg de kwaliteit van de rapportages, omdat iedere controleur dezelfde controlelijst en bewijslasttemplate doorloopt die direct is gekoppeld aan de BIO-controleset voor logging, documentatie en functiescheiding. De tijdswinst van 89 procent maakte het mogelijk om zonder extra FTE’s meer complexe dossiers te behandelen.

Menselijke regie blijft het uitgangspunt. AI levert slechts een advies; alleen een bevoegde behandelaar mag formele stappen richting belastingplichtigen zetten. Dossiers boven de 50.000 euro of met verhoogde maatschappelijke gevoeligheid vereisen standaard een vier-ogencontrole. Juristen en de DPO voeren steekproeven uit om te toetsen of de aangeleverde toelichtingen sterk genoeg zijn voor bezwaarprocedures en of er geen verboden discriminatie plaatsvindt. Binnen casemanagement kan een behandelaar met één klik een modelherbeoordeling aanvragen, aanvullende gegevens opvragen of het dossier terugzetten naar een volledig handmatige analyse. Zo blijft de Belastingdienst eigenaar van de beslissing en voldoet zij aan de beginselen van behoorlijk bestuur.

Continue feedback loops zorgen ervoor dat het model elke sprint slimmer wordt. Iedere afgesloten zaak krijgt één van vijf uitkomsten (fraude bevestigd, gedeeltelijk bevestigd, onjuist signaal, onvoldoende bewijs of beleidsmatig geaccepteerd). Deze labels stromen automatisch terug naar het trainingscluster, waar data scientists wekelijks patronen in false positives en false negatives analyseren. Elk kwartaal organiseert de organisatie rode-team-sessies waarin fraude-experts, ethische hackers en fiscalisten proberen de modellen te misleiden met synthetische aangiften en deepfake-documenten. De bevindingen leiden tot nieuwe features, aangescherpte netwerkanalyses en aanvullende detectieregels, waardoor het aantal onterechte signalen in twee jaar met 67 procent daalde.

Het programma is ingebed in stevig verandermanagement. Meer dan 400 medewerkers volgden trainingen over AI-readiness, juridische implicaties en ethische kaders; de ondernemingsraad en vakorganisaties waren vanaf de start betrokken om te borgen dat werkdruk en medewerkerstevredenheid meebewegen. Transparante communicatie richting burgers benadrukt dat AI uitsluitend ondersteunend is en dat ieder individu recht houdt op inzage, uitleg en bezwaar volgens de AVG. Een multidisciplinaire stuurgroep bespreekt maandelijks KPI’s, incidenten en verbeteracties en koppelt de resultaten terug aan het CIO-beraad, de Auditdienst Rijk en de Staatssecretaris. Daardoor blijft de AI-oplossing niet alleen technisch effectief, maar ook maatschappelijk verantwoord en bestuurlijk verankerd.

De casus van de Belastingdienst laat zien dat kunstmatige intelligentie alleen succesvol is wanneer technologie, procesontwerp en governance gelijktijdig worden vernieuwd. Door uitlegbare modellen te kiezen, privacy-by-design te verankeren, menselijke regie te behouden en feedbackloops professioneel te organiseren, kon de dienst de fraudeopbrengst verhogen en tegelijkertijd de belastingplichtige eerlijker behandelen. Het programma onderstreept eveneens dat de Nederlandse Baseline voor Veilige Cloud, de BIO en de AVG geen rem vormen op innovatie maar juist houvast bieden om verantwoord te versnellen. Andere overheidsorganisaties die AI willen inzetten rond risicobeoordelingen doen er goed aan om dezelfde principes te volgen: investeer in hoogwaardige data, borg juridische toetsing vanaf dag één, zorg voor transparante besluitvorming en bouw een multidisciplinair team dat zowel technologie als beleid begrijpt. Alleen dan ontstaat een duurzaam voordeel waarin publieke waarden en hoogwaardige dienstverlening hand in hand gaan.