Data architecture for trustworthy LLM applications.

Lead
Leon Schrijvers (Fontys)
Topics: Document databases, RAG (Retrieval Augmented Generation), Open Source LLMs, Testing RAG/LLMs, Chunking
De werkgroep LLM Engineering brengt onderwijs, onderzoek en bedrijven samen rond dit actuele thema. Meerdere keren per jaar organiseert de werkgroep kennisdelingsessies, waarin inzichten uit onderzoeksprojecten en studentenprojecten worden gedeeld. Ook deelnemende bedrijven delen hun resultaten. Zo ontstaat een omgeving waarin onderwijs en bedrijfsleven niet alleen inspiratie opdoen, maar ook concrete inzichten krijgen voor hun eigen praktijk.
De echte uitdaging
Een van de grootste vragen is op dit moment kwaliteit en validatie. Een LLM kan snel output genereren, maar hoe weet je of die output goed genoeg is om in een productieomgeving te gebruiken? Juist daar zit volgens de werkgroep de grootste uitdaging. In klassieke softwareontwikkeling kun je veel testen automatiseren om te valideren, bijvoorbeeld om te controleren of een softwareproduct voldoet aan de eisen en de requirements. Bij LLM-systemen is dat lastiger: tekstoutput varieert en het gedrag van modellen is minder voorspelbaar. We zien zowel vanuit bedrijven als vanuit onderzoek dat dit vakgebied nog in de kinderschoenen staat. Daarom hebben we deze werkgroep opgezet. Door samen te werken met experimenten, prototypes en kennisuitwisseling leren we van elkaar en komen we sneller tot bruikbare inzichten.
Praktijkvoorbeeld
Een mooi praktijkvoorbeeld is een project met een masterstudent Applied IT en een werkveldpartner. Deze partner had eerder al samen met studenten een tool ontwikkeld die op basis van een audiotranscriptie van een gesprek automatisch requirements kan genereren met een LLM. Hieruit ontstond de vraag: hoe beoordeel je of die requirements bruikbaar zijn? Als eerste hebben we gekeken hoe je zo’n requirement beoordeelt op kwaliteit. Dat hebben we geformaliseerd en vertaald naar een selectie van criteria. Daarna werd een tweede LLM ingezet als ‘judge’, om de resultaten van de tool te evalueren op basis van de gedefinieerde criteria. Zo konden we een eerste batch aan requirements evalueren. Daaruit bleek dat ze allemaal niet goed genoeg waren. Op basis van deze testresultaten en andere onderzoeksresultaten hebben we geadviseerd om een AI-assistent op te zetten die niet alleen requirements opstelt en beoordeelt, maar ook vervolgvragen stelt om requirements direct te verbeteren. De opdrachtgever was heel enthousiast, omdat dit ook helpt om na te denken over de toekomst van het vakgebied, zoals nieuwe interactiepatronen tussen mens en machine.
Dit type vraagstukken maakt de werkgroep relevant voor bedrijven die AI verantwoord willen inzetten.
Deelnemers

Pierre Kil
CEO

Frank Aldershoff
Project Manager AI

Raoul Grouls
Docent-Onderzoeker

Marijn Siebel
Docent-Onderzoeker
“Ik ben heel enthousiast over de ontwikkelingen in technologie en alles wat dit mogelijk maakt. Maar we moeten niet vergeten om kritisch na te blijven denken over hoe we deze technologie op een juiste en verantwoorde manier kunnen inzetten.“

Leon Schrijvers
Fontys
