De uitdaging: marge voorspellen in een volatiele markt
Sunweb Group is een van de grootste Europese touroperators en bedient jaarlijks meer dan 1,2 miljoen reizigers. Het bedrijf koopt vliegstoel- en hotelcapaciteit incrementeel in gedurende het jaar — ver vóór de daadwerkelijke vertrekdatum. Die werkwijze maakt nauwkeurige margeprognoses cruciaal: wanneer is het slim om promotie te voeren? Welke bestemmingen dreigen verlies te draaien? Hoe gedraagt de winstmarge zich per boeking in de aanloop naar vertrek?
De kern van de opdracht was het ontwikkelen van een robuust historisch voorspellingsmodel voor de Standardized Margin Per Pax (SMPP) — de gestandaardiseerde marge per passagier per boekingsweek — over 62 bestemmingen en vier jaar aan reserveringsdata.
"Een verbetering van 10% in voorspellingsnauwkeurigheid kan leiden tot 0,5–3% meer omzet op druk gevlogen routes."
Lee (1990) — MIT Flight Transportation LaboratoryGestructureerde methodologie: CRISP-DM als leidraad
Om businessdoelen en data-inzichten continu op elkaar af te stemmen, volgden we de CRISP-DM-structuur (Cross-Industry Standard Process for Data Mining). Die iteratieve aanpak maakt het mogelijk om eerder gemaakte keuzes te heroverwegen zodra nieuwe inzichten dat vragen — essentieel in een complex domein als yieldbeheer.
Het dataset bestond uit 145.211 rijen met wekelijkse boekingsdata van passagiers uit Nederland naar bestemmingen in Zuid-Europa en Noord-Afrika (2015–2019). De trainingsset omvatte drie jaar data; het testjaar was 2018/2019. Alle modellen werden geëvalueerd op de Root Weighted Mean Squared Error (RWMSE) — een gewogen foutmaat waarbij betrouwbare, druk geboekte vluchten zwaarder wegen — en statistisch gevalideerd via de Diebold-Mariano-test.
Acht modellen getest, één winnaar
We evalueerden een breed spectrum van voorspellingsmethoden: van eenvoudige regressie tot tijdreeksmodellen en dimensiereductie. Onderstaande tabel toont de kernresultaten.
| Model | RWMSE | Status |
|---|---|---|
| 'Average' Baseline | 52.05 | Benchmark |
| OLS Regressie | 52.84 | Niet significant beter |
| WLS Regressie (baseline) | 50.21 | Significant beter |
| WLS + Data-analyse | 46.48 | Sterk verbeterd |
| SVD WLS + Adjusted WLS | 46.45 | Beste model ✓ |
| Holt-Winters Exp. Smoothing | 58.67 | Slechter |
| Box-Jenkins ARIMAX | 97.86 | Ongeschikt |
| VAR(3) + SVD | 65.24 | Ongeschikt |
Het winnende model combineert een SVD WLS-model voor boekingen meer dan 56 weken vóór vertrek met het verfijnde Adjusted WLS-model voor de kortetermijnperiode. De keuze voor een drempelwaarde-aanpak is gedreven door data: vroege boekingen zijn inherent grilliger en vragen een andere modelstrategie dan late, betrouwbare boekingen dicht bij de vertrekdatum.
Wat de data onthulde over boekersgedrag
De grootste prestatiewinst kwam niet van een nieuw modeltype, maar van doelgerichte feature engineering. Door de data grondig te verkennen, ontdekten we patronen die het basismodel miste.
Peak weeks
Elke week-in-advance heeft een meest populaire boekingsweek. Rond die piek boekt ook de omgeving sterk. Het opnemen van een 'Is_Peak_Week'-variabele leverde een marginaal maar significant betere voorspelling op — én toonde aan dat piekweken gepaard gaan met lagere marges.
Seizoensdecompositie
Kerstvertrekken zijn structureel winstgevend; het begin van het zomervakantieseizoen zorgt voor een sterke margedip. De 'Departure_Summer_Vacation'-variabele bleek als enige seizoensvariabele robuust significant.
Interactietermen
Verbanden tussen boekingsweek en week-in-advance zijn niet-lineair. Het toevoegen van zorgvuldig gekozen interactietermen — o.a. voor kerstboekingen in piekweken — leverde de grootste RWMSE-daling op (−0,29).
Vertraagde variabelen
De grootste verbetering: vijf voorspelde lag-variabelen op basis van het WLS-model. De volgende marge is sterk gecorreleerd aan de vorige. RWMSE daalde met 3,23 — het meest impactvolle enkelvoudige datavormingstap in het gehele traject.
Wat betekent dit voor Sunweb?
- Boekingen gemaakt tussen week 1 en 9 van het jaar genereren structureel de hoogste marge — dit is het primaire venster voor promotieactiviteit.
- Boekingen in week 16–24 (zomervakantieperiode) en 43–54 zijn significant minder winstgevend; terughoudendheid met kortingen in die periodes is strategisch verstandig.
- Last-minute boekingen (WIA = 1) gaan gepaard met een gemiddelde margedaling van €76 per passagier — dit onderstreept de risico's van overmatige last-minute capaciteit.
- Lage-volume bestemmingen (Total_Pax < 60) produceren statistische ruis; het uitsluiten van deze vluchten verhoogt modelstabiliteit significant.
- Het gecombineerde SVD/WLS-model maakt betrouwbare prognoses tot 104 weken voor vertrek — ver genoeg om inkoopbeslissingen te sturen.
Accuratere modellen, betere beslissingen
Dit project toont aan dat een doordachte combinatie van exploratieve data-analyse en een relatief toegankelijk model als WLS meer oplevert dan het blindelings toepassen van complexe technieken. Tijdreeksmodellen en dimensiereductie bleken voor dit specifieke dataset ongeschikt — een conclusie die we alleen konden trekken door ze rigoureus te toetsen.
Het eindresultaat: een open-source GitHub-repository die Sunweb direct kan implementeren en doorontwikkelen op actuele boekingsdata. Het model ondersteunt beslissingen rondom marketing, capaciteitsinkoop, cashflowprognoses en dynamische prijsstelling — precies de hefbomen die winstgevendheid in de reissector bepalen.