slogan3

Uitgebreide Beoordeling van Datakwaliteit en Verbeteringsaanbevelingen

description

Helpt gebruikers om problemen in hun data te herkennen die de nauwkeurigheid van analyses kunnen beïnvloeden en biedt praktische stappen om datasets op te schonen en te verbeteren, wat zorgt voor betrouwbaardere en beter bruikbare inzichten dan generieke analyse prompts.

prompt

Beoordeel de datakwaliteit van mijn dataset met betrekking tot <voer het onderwerp van je data in>. Identificeer problemen zoals ontbrekende waarden, duplicaten, uitschieters en ...

try_prompt

generate_helper
disclaimerOnPageApi

ai_answers

provider: openai
model: gpt-4.1-nano
De beschrijving van uw dataset lijkt te verwijzen naar klantenbeoordelingen en ratings van producten die de afgelopen 6 maanden online zijn verkocht, in tegenstelling tot de websiteverkeersdata van het afgelopen jaar met paginaweergaven, sessies en bouncepercentages. Als u inderdaad de websiteverkeersdata bedoelt, dan is er een mismatch tussen de datasetbeschrijving en de inhoud. Echter, op basis van de gegeven beschrijving van klantenbeoordelingen en ratings, kan ik u algemene adviezen geven over datakwaliteit en opschoning: 1. Ontbrekende waarden: - Controleer op ontbrekende beoordelingen, ratings, of klantinformatie. - Vul ontbrekende gegevens waar mogelijk aan, bijvoorbeeld door gemiddelde ratings te gebruiken of door gegevens te imputeren. - Overweeg het verwijderen van records met te veel ontbrekende essentiële informatie. 2. Duplicaten: - Identificeer en verwijder dubbele beoordelingen van dezelfde klant voor hetzelfde product. - Gebruik unieke identifiers zoals klant-ID, bestelnummer, en datum om duplicaten te detecteren. 3. Uitschieters: - Analyseer ratings op afwijkingen (bijvoorbeeld een rating van 0 of 5 sterren die niet overeenkomen met andere beoordelingen). - Gebruik statistische methoden zoals Z-scores of IQR om uitschieters te identificeren. - Overweeg of uitschieters echte feedback of fouten in data-invoer zijn, en handel dienovereenkomstig. 4. Inconsistenties: - Controleer op inconsistent gebruik van ratings (bijvoorbeeld numeriek vs tekstuele beoordelingen). - Zorg dat datatypes uniform zijn (bijv. ratings als numerieke waarden). - Controleer op inconsistenties in datums, zoals toekomstige datums of onrealistische tijdstippen. 5. Data validatie: - Implementeer validatieregels, zoals ratings tussen 1 en 5, verplichte velden, en correcte datumnotaties. - Automatische scripts kunnen helpen om deze validaties uit te voeren. 6. Documentatie: - Houd bij welke aanpassingen en schoonmaakstappen je hebt uitgevoerd voor transparantie en herhaalbaarheid. Voor een optimale analyse: - Verbeter de datakwaliteit door gerichte opschoningsprocedures. - Overweeg het gebruik van data-integriteit checks en validatie scripts. - Implementeer regelmatige kwaliteitscontroles om consistentie te waarborgen. Indien u de websiteverkeersdata bedoelt, adviseer ik dezelfde stappen toe te passen: controle op ontbrekende waarden, duplicaten, uitschieters en inconsistenties, vooral in metriek zoals paginaweergaven, sessies en bouncepercentages. Heeft u specifieke voorbeelden of een deel van de dataset die u wilt bespreken?
provider: deepseek
model: deepseek-chat
Er is een duidelijke inconsistentie in uw verzoek. U vraagt een beoordeling van **websiteverkeersdata** (paginaweergaven, sessies, bouncepercentages), maar uw datasetbeschrijving gaat over **klantenbeoordelingen en ratings van producten**. Dit is een fundamenteel probleem met de datakwaliteit: de metadata (beschrijving) komt niet overeen met de vermeende inhoud van de dataset. Dit wijst op een ernstige inconsistentie die eerst opgelost moet worden. ### Beoordeling van de Geschetste Situatie: Gebaseerd op wat u heeft verstrekt, kunnen de volgende **kernproblemen** worden geïdentificeerd: 1. **Inconsistentie en Verkeerde Metadata**: De dataset wordt beschreven als "klantenbeoordelingen", maar u wilt deze analyseren alsof het "websiteverkeersdata" is. Dit is het grootste probleem. Het is onmogelijk om nauwkeurige analyses uit te voeren als de inhoud van de dataset niet bekend of incorrect gelabeld is. 2. **Onvolledige Informatie**: U geeft geen concrete data of voorbeelden, dus een echte beoordeling op ontbrekende waarden, duplicaten, enz. is niet mogelijk. Alle volgende suggesties zijn gebaseerd op standaardpraktijken voor websiteverkeersdata. ### Algemene Richtlijnen voor het Opschonen van Websiteverkeersdata: Als uw dataset *wel degelijk* websiteverkeersdata bevat, volg dan deze stappen: **1. Identificeer en Behandel Ontbrekende Waarden:** * **Identificatie**: Gebruik functies zoals `.isnull().sum()` in Python/pandas of de filterfuncties in Excel om gaten te vinden. * **Oorzaak onderzoeken**: Zijn waarden systematisch ontbrekend (bijv. trackingcode die een dag uitviel)? Of is het willekeurig? * **Behandeling**: * **Sessies/Pageviews**: Overweeg om ontbrekende waarden te verwijderen of (voorzichtiger) te interpoleren op basis van omliggende dagen. * **Bouncepercentage**: Dit is een percentage. Het verwijderen van de hele rij is vaak de veiligste optie. Vervangen door een gemiddelde kan de analyse verstoren. **2. Controleer en Verwijder Duplicaten:** * **Identificatie**: Zoek naar volledig identieke rijen (bijv. dezelfde datum,zelfde pagina,zelfde sessies). * **Oorzaak**: Vaak een fout in een data-export of ETL-proces. * **Behandeling**: Verwijder de duplicaten volledig. Behoud altijd de originele, volledige dataset ergens als back-up. **3. Analyseer en Beslis over Uitschieters:** * **Identificatie**: Gebruik statistische methoden (IQR - Interquartile Range) of visualisaties (boxplots, scatterplots) om extreme waarden te vinden. * **Oorzaak onderzoeken**: Zijn het echte gebeurtenissen (een viral blogbericht, een marketingcampagne) of fouten (dubbeltelling, botverkeer)? * **Behandeling**: * **Echte uitschieters**: Behoud deze! Ze zijn cruciaal voor uw analyse. Markeer ze eventueel met een vlag (bijv. een nieuwe kolom `is_campaign`). * **Valse uitschieters (ruis)**: Verwijder deze of cap ze (vervang de extreme waarde door een maximum redelijke waarde). **4. Zorg voor Consistentie:** * **Datums**: Zorg dat alle datums hetzelfde formaat hebben (JJJJ-MM-DD is aanbevolen) en in dezelfde tijdzone. * **Eenheden**: Controleer of alles in dezelfde eenheid staat (bijv. sessies zijn altijd hele getallen, bouncepercentage is een percentage tussen 0-100%). * **Pagina-URL's**: Standaardiseer URL's (bijv. verwijder sessie-ID's, zet alles in kleine letters). **5. Valideer de Data (Sanity Checks):** * Het bouncepercentage moet altijd tussen 0 en 100 liggen. * Het aantal paginaweergaven per sessie moet >= 1 zijn. * Het totale aantal sessies moet overeenkomen met de som van de unieke sessie-ID's (als die aanwezig zijn). ### Eerste en Belangrijkste Aanbeveling: **Los de inconsistentie in de datasetbeschrijving op voordat u ook maar iets anders doet.** U moet absoluut zeker weten of uw dataset daadwerkelijk **websiteverkeersdata** of **klantenbeoordelingen** bevat. Het analyseren van de verkeerde dataset leidt tot volkomen onjuiste inzichten. Mocht het een fout in de beschrijving zijn en heeft u wel de juiste data, pas dan de bovenstaande algemene richtlijnen toe. Voor een specifiekere analyse, verstrek dan een klein sample of een gedetailleerdere beschrijving van de datakolommen.