Beschrijving werkgroep

Definitie LLM Engineering

Vanuit de literatuur en de LLM-community is er nog geen formele definitie van ‘LLM Engineering’ beschikbaar. Aangezien LLM Engineering gerelateerd is aan (of kan worden gezien als een subset van) AI Engineering, is onze werkdefinitie van LLM Engineering afgeleid van de definitie van AI Engineering, namelijk: “het proces van het combineren van principes van systeemengineering, software-engineering, informatica en mensgericht ontwerp om intelligente systemen te creëren die in staat zijn tot taalgeneratie of andere natuurlijke taal-verwerkingstaken”.

Op een vereenvoudigde manier kunnen we LLM Engineering beschouwen als de combinatie van taken die moeten worden uitgevoerd om een ‘door een LLM ondersteunde applicatie’ (hierna genoemd: LLM-applicatie) te ontwerpen, ontwikkelen, valideren, implementeren en operationaliseren. In deze LLM-applicaties is een LLM een van de functionele onderdelen van de technische architectuur:

Bron: Architecting LLM applications from Engineering Practices for LLM Application Development

Gerelateerde definities

  • Prompt Engineering: “Het proces van het iteratief bijwerken van een generatieve AI (LLM) prompt om de effectiviteit ervan te verbeteren.”
  • LLM-Based Software Engineering (LLMSE): “Het proces binnen software-engineering waarbij de producten of processen gebruikmaken van LLM’s om de ontwikkeling- en operationele efficiëntie te verbeteren.”

LLM Engineering Tools

De werkgroep onderhoudt een Technology Radar waarin een overzicht wordt gegeven van relevante tools binnen de context van LLM Engineering en MLOps. Aangezien deze vakgebieden zich snel ontwikkelen, zal deze Technology Radar nooit volledig zijn, maar biedt wel houvast om de ontwikkelen van de vakgebieden te volgen en inhoudelijke focus van de werkgroep bij te sturen.

LLM Engineering & Kwaliteit en Validatie

Binnen het DEMAND-project richten we ons momenteel op de kwaliteitsaspecten en validatie van de resultaten van LLM-applicaties. In eerste instantie ligt de focus op (maar is niet beperkt tot) de validatie van Retrieval Augmented Generation (RAG)-pipelines. De validatie van RAG-pipelines is een relatief nieuw onderwerp, zoals is te zien in twee recente artikelen:

Veelbelovend is de geautomatiseerde validatie van RAG-pipelines met behulp van de LLM-as-a-Judge-aanpak. Hoewel uit recente experimenten met een lokale Judge-LLM bleek dat deze aanpak (en gerelateerde tools) nog niet volwassen genoeg is om in productie betrouwbaar te kunnen worden toegepast, is het wel een interessant gebied om toekomstige ontwikkelingen in te blijven volgen. Ons proces, bevindingen en conclusies over dit onderwerp zijn gepresenteerd op de Data Expo (Utrecht, september 2024) en zijn hier terug te lezen:

20240912_LLM_Engineering_Heck_Schrijvers_v1.7.pdf

LLM Engineering & LLMOps

Een andere term die wordt gebruikt in de context van LLM Engineering is LLMOps. In LLMOps: Engineering Trustworthy LLM Systems wordt een overzicht gegeven van verschillende kwaliteitsaspecten en uitdagingen die een rol spelen bij het bouwen van LLM-applicaties.