Optimaliseer mijn Prometheus waarschuwingen voor specifieke services
description
Met deze prompt kan ik mijn monitoring verfijnen door waarschuwingen te richten op de belangrijkste prestatie-indicatoren van specifieke services. Dit helpt me om sneller en gerichter problemen te detecteren en op te lossen, waardoor de betrouwbaarheid van mijn systemen toeneemt. Het is beter dan generieke waarschuwingen omdat het maatwerk biedt voor mijn specifieke omgeving.
prompt
Help me mijn Prometheus configuratie te verbeteren door effectieve waarschuwingen te creëren voor de volgende service: <Service Naam>. Ik wil waarsc ...
try_prompt
generate_helper
disclaimerOnPageApi
tags
ai_answers
provider: openai
model: gpt-4.1-nano
Natuurlijk! Hier is een verbeterde en uitgebreide Prometheus-waarschuwingsconfiguratie voor de webapp, gericht op kritieke prestatie-indicatoren zoals CPU-gebruik en geheugenverbruik. Ik voeg ook waarschuwingen toe voor CPU-gebruik en stel de regels iets genuanceerder op voor betere alerting.
Voorbeeld van een uitgebreide configuratie:
```yaml
groups:
- name: webapp-alerts
rules:
- alert: HighMemoryUsage
expr: process_resident_memory_bytes{job="webapp"} > 500000000
for: 10m
labels:
severity: critical
annotations:
summary: "Hoog geheugenverbruik op webapp"
description: "De webapp gebruikt meer dan 500MB RAM gedurende 10 minuten. Controleer het geheugenverbruik."
- alert: HighCPUUsage
expr: rate(node_cpu_seconds_total{job="webapp",mode!="idle"}[5m]) > 0.8
for: 5m
labels:
severity: critical
annotations:
summary: "Hoog CPU-gebruik op webapp"
description: "De CPU gebruikt meer dan 80% gedurende 5 minuten. Controleer de processen."
- alert: WebappUnresponsive
expr: up{job="webapp"} == 0
for: 5m
labels:
severity: critical
annotations:
summary: "Webapp niet bereikbaar"
description: "De webapp is niet bereikbaar volgens Prometheus. Controleer de service."
- alert: DiskSpaceLow
expr: node_filesystem_avail_bytes{mountpoint="/", job="webapp"} < 10 * 1024 * 1024 * 1024
for: 15m
labels:
severity: warning
annotations:
summary: "Weinig schijfruimte op root"
description: "De beschikbare schijfruimte op / is minder dan 10GB."
```
Deze regels zorgen voor een uitgebreide monitoring en tijdige waarschuwingen voor belangrijke prestatie-indicatoren. Pas de drempels en tijden aan op basis van je eigen operationele normen.
provider: deepseek
model: deepseek-chat
Ik help je graag met het verbeteren van je Prometheus configuratie. Hier zijn enkele effectieve waarschuwingsregels voor je webapp service:
```yaml
groups:
- name: webapp-alerts
rules:
# Bestaande geheugenwaarschuwing
- alert: HighMemoryUsage
expr: process_resident_memory_bytes{job="webapp"} > 500000000
for: 10m
labels:
severity: warning
annotations:
summary: "Hoog geheugenverbruik webapp"
description: "Webapp gebruikt meer dan 500MB geheugen gedurende 10 minuten (huidige waarde: {{ $value }} bytes)"
# CPU waarschuwingen
- alert: HighCPUUsage
expr: rate(process_cpu_seconds_total{job="webapp"}[5m]) * 100 > 80
for: 5m
labels:
severity: warning
annotations:
summary: "Hoog CPU-gebruik webapp"
description: "Webapp CPU-gebruik boven 80% gedurende 5 minuten (huidige waarde: {{ $value }}%)"
- alert: CriticalCPUUsage
expr: rate(process_cpu_seconds_total{job="webapp"}[5m]) * 100 > 95
for: 2m
labels:
severity: critical
annotations:
summary: "Kritiek CPU-gebruik webapp"
description: "Webapp CPU-gebruik boven 95% gedurende 2 minuten (huidige waarde: {{ $value }}%)"
# Geheugenwaarschuwing op percentage basis (indien totale geheugen bekend)
- alert: HighMemoryPercentage
expr: (process_resident_memory_bytes{job="webapp"} / node_memory_MemTotal_bytes) * 100 > 75
for: 10m
labels:
severity: warning
annotations:
summary: "Hoog percentage geheugenverbruik webapp"
description: "Webapp gebruikt meer dan 75% van beschikbaar geheugen (huidige waarde: {{ $value }}%)"
# Service beschikbaarheid
- alert: WebappDown
expr: up{job="webapp"} == 0
for: 1m
labels:
severity: critical
annotations:
summary: "Webapp is down"
description: "Webapp service is niet bereikbaar voor Prometheus"
# HTTP foutencodes
- alert: HighHTTPErrorRate
expr: rate(http_requests_total{job="webapp", status=~"5.."}[5m]) / rate(http_requests_total{job="webapp"}[5m]) * 100 > 5
for: 5m
labels:
severity: warning
annotations:
summary: "Hoog percentage HTTP fouten webapp"
description: "Meer dan 5% van requests resulteert in 5xx errors (huidige waarde: {{ $value }}%)"
```
**Aanbevelingen voor verbetering:**
1. **Gebruik relatieve drempels** in plaats van absolute waarden waar mogelijk
2. **Voeg `rate()` functie toe** voor CPU metingen om seconden naar percentage te converteren
3. **Stel verschillende severity levels** in (warning/critical)
4. **Gebruik betekenisvolle `for` durations** op basis van je SLO's
5. **Voeg contextuele annotations** toe voor betere meldingen
6. **Overweeg gebruik te maken van recording rules** voor complexe expressies
Vergeet niet de metrics te controleren die daadwerkelijk beschikbaar zijn voor je webapp door Prometheus te queryen met `{job="webapp"}`.