slogan3

Ontwerp een Dynamische Prompttemplate voor AI Model Evaluatie en Vergelijking

description

Maakt het voor gebruikers mogelijk om meerdere AI-modellen objectief te beoordelen en te vergelijken op basis van aanpasbare criteria, waardoor de nauwkeurigheid en efficiëntie bij het kiezen van het juiste model verbetert. Deze aanpak biedt een gestructureerde methode om sterke en zwakke punten van elk model voor specifieke taken te begrijpen, beter dan generieke prompts doordat de focus ligt op meetbare evaluatie.

prompt

Help mij een dynamische prompttemplate te ontwerpen om AI-modeluitkomsten te evalueren en te vergelijken voor de taak: <voer je AI-taak in>. Voeg variabelen toe om de te vergelijken modellen te specificeren: <lijst AI-modellen>, evaluatiecriteri ...

try_prompt

generate_helper
disclaimerOnPageApi

ai_answers

provider: openai
model: gpt-4.1-nano
Hier is een dynamische prompttemplate voor het evalueren en vergelijken van AI-modellen voor tekstsamenvatting: --- **Prompttemplate:** "Vergelijk de volgende modellen op het gebied van tekstsamenvatting: **Invoertekst:** {tekst_invoer} **Model 1 Samenvatting:** {samenvatting_model1} **Model 2 Samenvatting:** {samenvatting_model2} **Evaluatiecriteria:** 1. Nauwkeurigheid: Hoe goed weerspiegelt de samenvatting de kernpunten van de originele tekst? 2. Relevantie: Hoe relevant zijn de informatie en details in de samenvatting in verhouding tot de originele tekst? **Beoordeel de samenvattingen op elk van deze criteria en geef een objectieve score of beoordeling voor Model 1 en Model 2.** **Opmerking:** Gebruik concrete voorbeelden en vergelijkingen waar mogelijk om je evaluatie te ondersteunen." --- **Voorbeeldprompt:** "Vergelijk de volgende modellen op het gebied van tekstsamenvatting: **Invoertekst:** "De Nederlandse economie groeit dit jaar naar verwachting met 2,5%, mede dankzij de sterke binnenlandse consumptie en investeringen. Echter, inflatiedruk en stijgende rentevoeten vormen zorgen voor enige onzekerheid." **Model 1 Samenvatting:** "De Nederlandse economie groeit met 2,5%, maar inflatie en rente zorgen voor onzekerheid." **Model 2 Samenvatting:** "De economie groeit, maar er zijn zorgen door inflatie en hogere rentes." **Evaluatiecriteria:** 1. Nauwkeurigheid: Hoe goed weerspiegelen de samenvattingen de kernpunten zoals economische groei, inflatie, en rente? 2. Relevantie: Hoe relevant en informatief zijn de samenvattingen in verhouding tot de originele tekst? Beoordeel de samenvattingen op elk van deze criteria en geef een score van 1 tot 10 voor Model 1 en Model 2." --- **Waarom zorgt deze template voor consistente en objectieve evaluatie?** Deze promptstructuur zorgt voor consistentie doordat het dezelfde formaten en criteria hanteert voor elke vergelijking. Door expliciet de evaluatiecriteria (nauwkeurigheid en relevantie) te benoemen en concrete voorbeelden te geven, wordt subjectieve interpretatie geminimaliseerd. Het gebruik van gestructureerde vragen en beoordelingsscores bevordert objectiviteit en maakt vergelijkingen kwantitatief en transparant. Bovendien dwingt het de evaluator om specifieke aspecten van de samenvattingen te analyseren, wat leidt tot een meer genuanceerde en betrouwbare beoordeling van modelprestaties.
provider: deepseek
model: deepseek-chat
Zeker, hier is een dynamische prompttemplate in het Nederlands, gevolgd door een voorbeeld en uitleg. ### Dynamische Prompttemplate ``` Vergelijk de samenvattingen gegenereerd door de modellen {Model_A_Naam} en {Model_B_Naam} voor de volgende invoertekst: **Invoertekst:** "{Invoertekst}" **Samenvatting Model A ({Model_A_Naam}):** "{Samenvatting_Model_A}" **Samenvatting Model B ({Model_B_Naam}):** "{Samenvatting_Model_B}" Evalueer en vergelijk deze samenvattingen strikt op basis van de volgende criteria: 1. **Nauwkeurigheid:** In hoeverre komt de informatie in de samenvatting feitelijk overeen met de brontekst? Zijn er fouten, weglatingen van cruciale feiten of toevoegingen van incorrecte informatie? 2. **Relevantie:** In hoeverre vangt de samenvatting de belangrijkste onderwerpen, hoofdpunten en de algemene intentie van de brontekst? Bevat het overbodige of afleidende details? Geef voor elk criterium een beknopte, objectieve analyse van beide samenvattingen. Sluit af met een algemene conclusie waarin je aangeeft welke samenvatting overall beter presteert en onderbouw dit duidelijk op basis van de gegeven criteria. ``` --- ### Voorbeeldprompt **Variabelen ingevuld:** * `{Model_A_Naam}`: GPT-4 * `{Model_B_Naam}`: Claude-3 * `{Invoertekst}`: "De Nederlandse energietransitie is een complex proces waarbij het land streeft naar een volledig duurzaam energiesysteem in 2050. Een grote uitdaging is de verduurzaming van de gebouwde omgeving, met name het isoleren van miljoenen woningen en het vervangen van aardgas door warmtepompen of warmtenetten. Daarnaast is de uitbouw van offshore windparken in de Noordzee cruciaal voor de groene stroomvoorziening. Het succes van de transitie hangt af van technologische innovatie, betaalbaarheid voor burgers en een robuuste nationale energie-infrastructuur." * `{Samenvatting_Model_A}`: "Nederland wil in 2050 volledig duurzaam zijn. Dit vereist het isoleren van huizen, de overstap van gas naar warmtepompen en de aanleg van windparken op zee. Innovatie en betaalbaarheid zijn key." * `{Samenvatting_Model_B}`: "De energietransitie in Nederland is complex en richt zich op duurzame energie tegen 2050. Belangrijke aspecten zijn onder meer warmtenetten en de ontwikkeling van de energie-infrastructuur." **Gegenereerde Prompt:** Vergelijk de samenvattingen gegenereerd door de modellen **GPT-4** en **Claude-3** voor de volgende invoertekst: **Invoertekst:** "De Nederlandse energietransitie is een complex proces waarbij het land streeft naar een volledig duurzaam energiesysteem in 2050. Een grote uitdaging is de verduurzaming van de gebouwde omgeving, met name het isoleren van miljoenen woningen en het vervangen van aardgas door warmtepompen of warmtenetten. Daarnaast is de uitbouw van offshore windparken in de Noordzee cruciaal voor de groene stroomvoorziening. Het succes van de transitie hangt af van technologische innovatie, betaalbaarheid voor burgers en een robuuste nationale energie-infrastructuur." **Samenvatting Model A (GPT-4):** "Nederland wil in 2050 volledig duurzaam zijn. Dit vereist het isoleren van huizen, de overstap van gas naar warmtepompen en de aanleg van windparken op zee. Innovatie en betaalbaarheid zijn key." **Samenvatting Model B (Claude-3):** "De energietransitie in Nederland is complex en richt zich op duurzame energie tegen 2050. Belangrijke aspecten zijn onder meer warmtenetten en de ontwikkeling van de energie-infrastructuur." Evalueer en vergelijk deze samenvattingen strikt op basis van de volgende criteria: 1. **Nauwkeurigheid:** In hoeverre komt de informatie in de samenvatting feitelijk overeen met de brontekst? Zijn er fouten, weglatingen van cruciale feiten of toevoegingen van incorrecte informatie? 2. **Relevantie:** In hoeverre vangt de samenvatting de belangrijkste onderwerpen, hoofdpunten en de algemene intentie van de brontekst? Bevat het overbodige of afleidende details? Geef voor elk criterium een beknopte, objectieve analyse van beide samenvattingen. Sluit af met een algemene conclusie waarin je aangeeft welke samenvatting overall beter presteert en onderbouw dit duidelijk op basis van de gegeven criteria. --- ### Waarom deze template zorgt voor consistentie en objectiviteit 1. **Gestandaardiseerde Structuur:** Elke evaluatie volgt exact dezelfde opbouw (instructie, invoer, samenvatting A, samenvatting B, criteria, verwachting). Dit elimineert variatie door een wisselende promptstructuur, wat cruciaal is voor een eerlijke vergelijking. 2. **Duidelijk Gedefinieerde Variabelen:** De plaatshouders (`{...}`) zorgen ervoor dat de essentiële elementen (modelnamen, invoer, outputs) eenvoudig kunnen worden gewisseld, terwijl de rest van de prompt—en dus de evaluatie-instructie—onveranderd blijft. Dit is de kern van een goede template. 3. **Expliciete en Operationele Criteria:** De criteria **nauwkeurigheid** en **relevantie** zijn niet vaag; ze worden direct uitgelegd met duidelijke vragen ("Zijn er fouten?", "Bevat het overbodige details?"). Dit stuurt de AI (de beoordelaar) om zich te focussen op waarneembare kenmerken in plaats van op algemene indrukken. 4. **Focus op Objectieve Analyse:** Taal als "evalueer en vergelijk strikt op basis van" en "geef een objectieve analyse" instrueert de model om een neutrale, evidence-based benadering te hanteren in plaats van een subjectieve voorkeur. 5. **Side-by-Side Vergelijking:** Door beide samenvattingen direct onder elkaar en naast de brontekst te presenteren, wordt de beoordelaar gedwongen om ze direct tegen elkaar af te wegen op dezelfde criteria, wat vergelijkingsfouten vermindert. 6. **Gedetailleerde Verantwoordingsplicht:** De instructie om een conclusie te onderbouwen op basis van de criteria zorgt voor transparantie. Het wordt duidelijk *waarom* het ene model beter presteert dan het andere (bijv. "Model A scoort beter op relevantie omdat het alle kernuitdagingen noemt, terwijl Model B de cruciale punten over isolatie en windenergie weglaat"). Kortom, deze template minimaliseert subjectiviteit en inconsistentie door de beoordelaar (het AI-model dat de evaluatie uitvoert) te sturen met een vaste, duidelijke en op feiten gebaseerde instructie.