š¼ Management Samenvatting
Met Azure Document Intelligence kunnen Nederlandse overheidsorganisaties eigen AI-modellen trainen voor het automatisch uitlezen en interpreteren van documenten, formulieren en dossiers. Custom models maken het mogelijk om zeer domeinspecifieke informatie ā zoals zaaknummers, BSN-achtige identificatoren, vergunningscodes of beleidsreferenties ā betrouwbaar te herkennen en te structureren.
ā M365
ā AI Services
Zonder goed ontworpen en beheerde custom models ontstaat het risico dat gevoelige informatie verkeerd wordt geĆÆnterpreteerd, dat beslissingen op basis van onvolledige of foutieve data worden genomen en dat de organisatie niet meer kan uitleggen hoe uit documenten afgeleide conclusies tot stand zijn gekomen. Dit raakt direct aan transparantievereisten uit de EU AI Act, de AVG en de Wet open overheid. Een ondoordachte inzet van document-AI kan bovendien leiden tot datalekken (bijvoorbeeld door het per ongeluk indexeren van niet-geanonimiseerde dossiers) en tot oneerlijke behandeling van burgers wanneer cruciale velden consequent verkeerd worden herkend.
Connection:
Connect-AzAccountRequired Modules: Az.Accounts
Implementatie
Dit artikel beschrijft hoe u custom models in Azure Document Intelligence ontwerpt, traint, valideert en beheert binnen de context van Nederlandse overheidsorganisaties. We behandelen de volledige levenscyclus: van useācase selectie en dataselectie tot labeling, modeltraining, kwaliteitsmeting, productie-implementatie, monitoring en periodieke hertraining. Daarbij leggen we expliciet de koppeling met EU AI Actāeisen, de BIO en AVG, en geven we concrete handvatten voor governance, auditbaarheid en documentatie. Tot slot laten we zien hoe u met eenvoudige scripts kunt controleren of alle vereiste documentatie, kwaliteitsmetingen en modelconfiguraties upātoādate zijn.
Useācases voor custom models in de publieke sector
Voor Nederlandse overheidsorganisaties is het gebruik van custom models in Azure Document Intelligence vooral interessant waar grote hoeveelheden semiāgestructureerde documenten moeten worden verwerkt. Denk aan vergunningaanvragen met uiteenlopende formuliertypen, subsidiedossiers, bezwaar- en beroepsschriften, contracten met leveranciers, of gescande archiefstukken die onder de Wet open overheid vallen. In al deze situaties is de informatiebehoefte specifieker dan wat standaardmodellen kunnen leveren. Een generiek model kan bijvoorbeeld wel namen en adressen herkennen, maar mist de context om onderscheid te maken tussen een aanvrager, gemachtigde, belanghebbende of interne behandelaar. Custom models vullen dit gat door precies die velden te leren die relevant zijn voor het betreffende proces en de betreffende organisatie.
Het definiĆ«ren van een goede useācase begint met een procesanalyse. Welke besluiten of handelingen worden nu handmatig genomen op basis van documenten, hoeveel tijd kost dit en welke kwaliteitsrisicoās zijn er? Vervolgens wordt bepaald welke velden minimaal nodig zijn om dat proces (gedeeltelijk) te automatiseren of te versnellen. Bij een vergunningenproces kan dat bijvoorbeeld bestaan uit het zaaknummer, het type aanvraag, de locatiegegevens, relevante datums, de aanvrager en het van toepassing zijnde beleidskader. Voor elke van deze velden wordt vastgesteld hoe die in documenten terugkomt, welke varianten er zijn en welke uitzonderingen vaak optreden. Een zorgvuldige inventarisatie voorkomt dat het model later moet worden uitgebreid met ontbrekende velden, wat extra trainingsrondes en governanceābesluiten vraagt.
Daarnaast moet bij elke useācase een ethische en juridische afweging worden gemaakt. Automatisch uitlezen van documenten mag nooit leiden tot beslissingen die volledig zonder menselijke tussenkomst worden genomen, tenzij de risicoās zeer beperkt zijn en de wetgeving dit toelaat. In de meeste overheidscontexten blijft menselijke beoordeling daarom noodzakelijk, bijvoorbeeld door AI alleen te gebruiken voor voorbewerking en dossieropbouw, terwijl de uiteindelijke beslissing door een behandelaar wordt genomen. Deze rolverdeling moet vooraf helder worden vastgelegd, inclusief afspraken over wie verantwoordelijk is voor de interpretatie van de door het model geleverde velden en wat er gebeurt wanneer het model aantoonbaar fouten maakt.
Een laatste cruciale overweging is interoperabiliteit. De informatie die uit Document Intelligence komt, wordt vrijwel altijd doorgezet naar andere systemen, zoals een zaaksysteem, DMS, CRM of een specifieke vakapplicatie. Dit betekent dat veldnamen, datatypen en coderingen moeten aansluiten op bestaande gegevensmodellen en dat datakwaliteitseisen consistent zijn. Een veld als ābesluitdatumā moet bijvoorbeeld altijd in dezelfde notatie worden opgeslagen, ongeacht of het uit een oud gescand formulier of uit een recente digitale aanvraag komt. Door deze afhankelijkheden vroegtijdig in kaart te brengen, voorkomt u duur herontwerp van interfaces en mappings later in het traject.
Dataselectie, labeling en kwaliteitsborging
De kwaliteit van custom models staat of valt met de kwaliteit van de trainingsdata en de wijze waarop deze is gelabeld. Voor Nederlandse overheidsorganisaties is dit extra gevoelig, omdat documenten vaak persoonsgegevens, bijzondere persoonsgegevens of vertrouwelijke beleidsinformatie bevatten. De eerste stap is daarom een zorgvuldige selectie van documenten die representatief zijn voor de praktijk, maar die waar mogelijk geanonimiseerd of gepseudonimiseerd zijn voordat ze voor training worden gebruikt. Hierbij moet in nauwe samenwerking met de Functionaris Gegevensbescherming en security officers worden bepaald welke categorieƫn gegevens wel en niet in trainingssets mogen voorkomen en onder welke voorwaarden.
Na de selectie volgt het labelproces, waarbij menselijke labelaars in een toolingomgeving aangeven welke velden waar in het document voorkomen. Dit is geen administratieve bijzaak maar een cruciale kwaliteitsstap. Inconsistente labeling ā bijvoorbeeld doordat verschillende labelaars net andere keuzes maken ā vertaalt zich direct in inconsistente modeluitvoer. Het is daarom essentieel om een helder labelprotocol op te stellen, met voorbeelden van goede en foute labeling, duidelijke definities van elk veld en afspraken over hoe om te gaan met twijfelgevallen. Regelmatige interāannotator agreementāmetingen helpen om te controleren of labelaars het eens zijn over de interpretatie van de velden en waar aanvullende training nodig is.
Kwaliteitsborging gaat verder dan alleen het meten van nauwkeurigheid of F1āscores. Voor overheidsprocessen is het vooral belangrijk om inzicht te hebben in fouttypen en hun impact. Een fout geclassificeerd veld dat alleen cosmetische informatie bevat, is minder ernstig dan een fout in de categorie ābeslissingsrelevante datumā of ārechtsgrondā. Daarom moeten kwaliteitsrapportages niet alleen gemiddelden tonen, maar ook foutanalyses per veld, per documentsoort en per scenario. Deze analyses vormen de basis voor besluitvorming over welk automatiseringsniveau verantwoord is en waar aanvullende menselijke controles nodig zijn. Dit sluit direct aan op de risicogebaseerde benadering uit de EU AI Act.
Tot slot moet de volledige herkomst van trainings- en testdata worden gedocumenteerd. Dit betekent dat voor elke dataset wordt bijgehouden uit welke bronsystemen documenten afkomstig zijn, welke filters of selectieregels zijn toegepast, hoe lang de data wordt bewaard en onder welke grondslag deze wordt gebruikt. Deze informatie is nodig voor AVGāconformiteit, maar ook om later, bij incidenten of modeldrift, te kunnen herleiden of problemen terug te voeren zijn op de data of op het model zelf. Door dit vanaf het begin in een centrale documentatierepository vast te leggen, voorkomt u dat auditvragen later moeilijk te beantwoorden zijn.
Productie-implementatie, governance en monitoring
Zodra een custom model voldoende volwassen is, verschuift de aandacht naar implementatie in productie en langetermijnbeheer. Dit begint met een gecontroleerde uitrol, bijvoorbeeld in een proefomgeving of met een beperkte groep dossiers, waarbij resultaten systematisch worden vergeleken met de bestaande werkwijze. In deze fase is het van belang om duidelijke acceptatiecriteria te hanteren: bij welke combinatie van nauwkeurigheid, fouttypen en doorlooptijdverbetering wordt het model als āgeschikt voor productieā beschouwd? Deze criteria moeten vooraf zijn afgestemd met proceseigenaren, juristen en informatiebeveiliging, zodat er geen discussie ontstaat zodra de eerste resultaten beschikbaar zijn.
Governance rond custom models vraagt om heldere rolverdeling. Er moet een formele modelāeigenaar zijn (vaak de proceseigenaar) die eindverantwoordelijk is voor het besluit om een model in productie te nemen en te houden. Daarnaast zijn er technische beheerders die zorgen voor deployment, schaalbaarheid en beveiliging binnen Azure, en dataāspecialisten die toezicht houden op datakwaliteit en performancemetingen. Voor elk van deze rollen moeten taken en bevoegdheden worden vastgelegd, inclusief escalatieroutes voor incidenten zoals onverwachte foutpieken, datalekken of ongewenste bias. Deze governanceāstructuur vormt ook de basis voor conformiteit met de EU AI Act, die expliciet vraagt om human oversight en duidelijke verantwoordingslijnen.
Monitoring in de exploitatiefase gaat verder dan alleen technische beschikbaarheid. Naast het bewaken van latency, foutcodes en resourceverbruik, moet de organisatie ook periodiek controleren of de inhoudelijke prestaties van het model nog aansluiten bij de werkelijkheid. Dit kan bijvoorbeeld door steekproefsgewijs dossiers te laten beoordelen, waarbij een tweede lijn controleert of de door het model herkende velden compleet en juist zijn en of er systematische afwijkingen ontstaan in bepaalde documentsoorten of burgergroepen. Signalen van modeldrift ā bijvoorbeeld omdat formulieren zijn aangepast of nieuwe documenttypes zijn geĆÆntroduceerd ā moeten leiden tot een herziening van de trainingsset en zo nodig een nieuwe trainingsronde.
Een praktische manier om deze monitoring te operationaliseren is het gebruik van dashboards en eenvoudige scripts die onder andere nagaan of voor alle gebruikte modellen actuele documentatie bestaat, of kwaliteitsmetingen recent zijn uitgevoerd en of drempelwaarden voor nauwkeurigheid en foutpercentages nog worden gehaald. De in dit artikel beschreven PowerShellāscripts zijn ontworpen om een deel van deze controles te automatiseren, bijvoorbeeld door metadata over modellen en documentatiebestanden te analyseren en een samenvattend rapport voor auditors en management te genereren. Hiermee wordt de vertaalslag gemaakt van technische AIāconfiguratie naar bestuurbare complianceāinformatie.
Geautomatiseerde controles en rapportage
Gebruik PowerShell-script custom-models.ps1 (functie Invoke-Monitoring) ā Voert geautomatiseerde controles uit op de documentatie- en kwaliteitsstatus van custom models in Azure Document Intelligence..
Om structureel te kunnen aantonen dat custom models binnen Azure Document Intelligence onder controle zijn, hebben organisaties behoefte aan reproduceerbare checks. Een handmatige controle van documentatie, configuraties en kwaliteitsrapportages is arbeidsintensief en foutgevoelig, vooral wanneer meerdere modellen parallel in gebruik zijn voor verschillende processen. Door deze controles te standaardiseren in een script, kan periodiek ā bijvoorbeeld maandelijks of voorafgaand aan een audit ā een consistent overzicht worden gegenereerd van welke modellen in gebruik zijn, welke documentatie beschikbaar is, hoe recent deze is bijgewerkt en waar hiaten bestaan. Dit artikel koppelt de beschreven governanceāaanpak daarom expliciet aan een PowerShellāscript dat deze analyses geautomatiseerd uitvoert en resultaten samenvat in een compact rapport.
Remediatie, hertraining en continue verbetering
Gebruik PowerShell-script custom-models.ps1 (functie Invoke-Remediation) ā Genereert templates en acties voor het bijwerken van documentatie en kwaliteitsdossiers van custom models..
Geen enkel custom model blijft permanent optimaal. Wetgeving wijzigt, formulieren veranderen en maatschappelijke verwachtingen rond transparantie en uitlegbaarheid nemen toe. Daarom moet remediatie worden gezien als een continu proces: zodra monitoring laat zien dat kwaliteitsdoelen niet meer worden gehaald of dat documentatie verouderd is, moet een gestructureerd verbetertraject worden gestart. Dit traject omvat het actualiseren van de useācasebeschrijving, het uitbreiden of opschonen van trainingsdata, het bijwerken van labelrichtlijnen en het opnieuw trainen en valideren van het model. Cruciaal is dat al deze stappen zorgvuldig worden gelogd, zodat later kan worden aangetoond welke maatregelen wanneer zijn genomen en met welk resultaat.
De bijbehorende remediatieāscripts ondersteunen dit proces door automatisch templates te genereren voor ontbrekende documentatie, lijsten van prioritaire modellen te maken en basisrapportages op te leveren die het gesprek tussen dataāspecialisten, juristen en bestuurders faciliteren. Zo wordt voorkomen dat kwaliteits- en compliancevraagstukken blijven liggen vanwege gebrek aan tijd of overzicht. Door remediatie te verankeren in reguliere beheerprocessen ā bijvoorbeeld als vast onderdeel van het releaseā en wijzigingsproces ā groeit Document Intelligence uit tot een betrouwbare infrastructuur waar burgers op kunnen vertrouwen en waar auditors snel inzicht krijgen in de beheersingsmaatregelen rond AIāgestuurde documentverwerking.
Compliance & Frameworks
- BIO: 12.02, 12.05, 18.01 - borging van documentverwerking, datakwaliteit en AIāgebruik binnen informatiebeveiligingsmanagement voor overheidsorganisaties.
- ISO 27001:2022: A.8.1.1, A.12.6.1, A.18.1.3 - documentatie van AIāondersteunde verwerkingsactiviteiten, risicobeheer en beheersmaatregelen rond documentā en gegevensverwerking.
- NIS2: Artikel - versterking van de digitale weerbaarheid door gecontroleerde inzet van AI voor kritieke documentprocessen en ketenpartners.
Automation
Gebruik het onderstaande PowerShell script om deze security control te monitoren en te implementeren. Het script bevat functies voor zowel monitoring (-Monitoring) als remediation (-Remediation).
Risico zonder implementatie
Management Samenvatting
Custom models in Azure Document Intelligence maken het mogelijk om grote aantallen overheidsdocumenten betrouwbaar en herhaalbaar te ontsluiten, mits ze zorgvuldig zijn ontworpen, getraind, gemonitord en gedocumenteerd. Dit artikel beschrijft de volledige governanceā, kwaliteits- en complianceāaanpak, inclusief geautomatiseerde checks en remediatieāscripts.
- Implementatietijd: 140 uur
- FTE required: 0.7 FTE