slogan3

Beoordeel de Datakwaliteit en Stel Verbeteracties Voor

description

Maakt het mogelijk verborgen datakwaliteitsproblemen te identificeren die analyse of modelprestaties kunnen verminderen. Biedt gerichte aanbevelingen om je dataset te reinigen en te verbeteren, bespaart tijd en verhoogt het vertrouwen in de resultaten. Richt zich duidelijk op kwaliteitsbeoordeling buiten basisvoorbewerking.

prompt

Help me de kwaliteit van mijn dataset te beoordelen door anomalieën, duplicaten, inconsistenties en mogelijke invoerfouten te identificeren. Omschrijving Dataset: <voer een korte beschrijving van je dataset in> Belangrijke Kwaliteitsprobleme ...

try_prompt

generate_helper
disclaimerOnPageApi

ai_answers

provider: openai
model: gpt-4.1-nano
Natuurlijk, ik help je graag bij het beoordelen van de kwaliteit van je dataset. Hieronder vind je een gestructureerde aanpak om anomalieën, duplicaten, inconsistenties en invoerfouten te identificeren en te corrigeren: 1. Duplicaten Opsporen en Verwijderen - Controleer op exacte duplicaten met behulp van functies zoals pandas.duplicated() in Python. - Overweeg of er rijen zijn die mogelijk duplicaten zijn maar kleine verschillen vertonen; deze kunnen handmatig of met fuzzy matching worden gecontroleerd. 2. Ontbrekende Waarden Identificeren en Aanpakken - Gebruik functies als pandas.isnull() of pandas.info() om missing values te detecteren. - Bepaal hoe je met ontbrekende gegevens omgaat: invullen (imputatie), verwijderen of markeren. 3. Anomalieën en Uitschieters Detecteren - Statistische methoden: bereken de gemiddelde en standaardafwijking van de omzet en identificeer waarden die meer dan 3 keer de standaardafwijking afwijken. - Visualisatie: gebruik boxplots of histogrammen om uitschieters te visualiseren. - Tijdreeksanalyse: controleer op plotselinge sprongen of dalingen in de maandelijkse omzet. 4. Consistentie en Validiteit Controleren - Controleer of productcategorieën en winkelsamenstellingen consistent zijn (bijv. geen spelfouten of variaties in naamgeving). - Valideer dat datums in het juiste formaat staan en dat maand- en jaarwaarden logisch zijn. 5. Invoerfouten en Inconsistenties Detecteren - Zoek naar vreemde tekens, spelfouten of inconsistent gebruik van hoofdletters. - Controleer of omzetwaarden niet negatief of onrealistisch hoog zijn. 6. Mogelijke Verbeteringen en Correcties - Dubbele rijen verwijderen. - Ontbrekende waarden aanvullen of verwijderen op basis van de context. - Uitschieters beoordelen en beslissen of ze echte afwijkingen zijn of invoerfouten. - Consistentie in categorienamen herstellen. Voor verdere hulp kun je specifieke voorbeelden of datasets delen zodat ik gerichte suggesties kan geven.
provider: deepseek
model: deepseek-chat
Ik help je graag bij het beoordelen van je dataset. Hier is een stapsgewijze aanpak om de kwaliteitsproblemen te identificeren, met focus op anomalieën en uitschieters: ### 1. **Dubbele Rijen Identificeren** - Gebruik: `df.duplicated().sum()` om aantal duplicaten te tellen - Bekijk specifieke duplicaten met: `df[df.duplicated(keep=False)]` - Overweeg of duplicaten legitiem zijn (bv.zelfde product verkocht opzelfde dag) ### 2. **Ontbrekende Waarden Analyseren** - Check: `df.isnull().sum()` per kolom - Identificeer patronen in ontbrekende data - Bepaal of missing values random zijn of systematisch ### 3. **Anomalieën en Uitschieters Detecteren** **Voor omzetdata:** - IQR-methode: Bereken Q1, Q3 en IQR, flag waarden buiten [Q1 - 1.5*IQR, Q3 + 1.5*IQR] - Z-score: Flag records met |z-score| > 3 - Visuele inspectie met boxplots en scatterplots **Voor categorische data:** - Check ongeldige categorieën: `df['categorie'].value_counts()` - Identificeer spellingvarianten en inconsistenties ### 4. **Inconsistenties Identificeren** - Datumformaten controleren - Eenheidconsistentie (bv. EUR vs €) - Categorische waarden standaardiseren ### 5. **Praktische Actiestappen** - Maak een data quality report - Documenteer gevonden issues en impact - Prioriteer correctie op basis van business impact - Overweeg imputatie-strategieën voor missing values ### **Aanbevolen Tools:** - Python: Pandas, NumPy, Seaborn voor visualisatie - Excel: Geavanceerde filtering en voorwaardelijke opmaak - Speciale libraries: Great Expectations, Pandas-profiling Wil je dat ik specifieke codevoorbeelden geef voor een van deze stappen of heb je een sample van je data om concretere suggesties te kunnen doen?