Terug naar portfolio
Case Study Travel & Aviation 2024

Margewinstgevendheid voorspellen voor Sunweb Group

Hoe geavanceerde voorspellingsmodellen en exploratieve data-analyse samen zorgen voor scherper yield management, betere marketingbeslissingen en hogere winstgevendheid in de reissector.


7.6%
RWMSE-verbetering t.o.v. baseline
62
bestemmingen geanalyseerd
8+
modellen vergeleken & getoetst

De uitdaging: marge voorspellen in een volatiele markt

Sunweb Group is een van de grootste Europese touroperators en bedient jaarlijks meer dan 1,2 miljoen reizigers. Het bedrijf koopt vliegstoel- en hotelcapaciteit incrementeel in gedurende het jaar — ver vóór de daadwerkelijke vertrekdatum. Die werkwijze maakt nauwkeurige margeprognoses cruciaal: wanneer is het slim om promotie te voeren? Welke bestemmingen dreigen verlies te draaien? Hoe gedraagt de winstmarge zich per boeking in de aanloop naar vertrek?

De kern van de opdracht was het ontwikkelen van een robuust historisch voorspellingsmodel voor de Standardized Margin Per Pax (SMPP) — de gestandaardiseerde marge per passagier per boekingsweek — over 62 bestemmingen en vier jaar aan reserveringsdata.

"Een verbetering van 10% in voorspellingsnauwkeurigheid kan leiden tot 0,5–3% meer omzet op druk gevlogen routes."

Lee (1990) — MIT Flight Transportation Laboratory

Gestructureerde methodologie: CRISP-DM als leidraad

Om businessdoelen en data-inzichten continu op elkaar af te stemmen, volgden we de CRISP-DM-structuur (Cross-Industry Standard Process for Data Mining). Die iteratieve aanpak maakt het mogelijk om eerder gemaakte keuzes te heroverwegen zodra nieuwe inzichten dat vragen — essentieel in een complex domein als yieldbeheer.

Het dataset bestond uit 145.211 rijen met wekelijkse boekingsdata van passagiers uit Nederland naar bestemmingen in Zuid-Europa en Noord-Afrika (2015–2019). De trainingsset omvatte drie jaar data; het testjaar was 2018/2019. Alle modellen werden geëvalueerd op de Root Weighted Mean Squared Error (RWMSE) — een gewogen foutmaat waarbij betrouwbare, druk geboekte vluchten zwaarder wegen — en statistisch gevalideerd via de Diebold-Mariano-test.

Acht modellen getest, één winnaar

We evalueerden een breed spectrum van voorspellingsmethoden: van eenvoudige regressie tot tijdreeksmodellen en dimensiereductie. Onderstaande tabel toont de kernresultaten.

Model RWMSE Status
'Average' Baseline 52.05 Benchmark
OLS Regressie 52.84 Niet significant beter
WLS Regressie (baseline) 50.21 Significant beter
WLS + Data-analyse 46.48 Sterk verbeterd
SVD WLS + Adjusted WLS 46.45 Beste model ✓
Holt-Winters Exp. Smoothing 58.67 Slechter
Box-Jenkins ARIMAX 97.86 Ongeschikt
VAR(3) + SVD 65.24 Ongeschikt

Het winnende model combineert een SVD WLS-model voor boekingen meer dan 56 weken vóór vertrek met het verfijnde Adjusted WLS-model voor de kortetermijnperiode. De keuze voor een drempelwaarde-aanpak is gedreven door data: vroege boekingen zijn inherent grilliger en vragen een andere modelstrategie dan late, betrouwbare boekingen dicht bij de vertrekdatum.

Wat de data onthulde over boekersgedrag

De grootste prestatiewinst kwam niet van een nieuw modeltype, maar van doelgerichte feature engineering. Door de data grondig te verkennen, ontdekten we patronen die het basismodel miste.

📅

Peak weeks

Elke week-in-advance heeft een meest populaire boekingsweek. Rond die piek boekt ook de omgeving sterk. Het opnemen van een 'Is_Peak_Week'-variabele leverde een marginaal maar significant betere voorspelling op — én toonde aan dat piekweken gepaard gaan met lagere marges.

🌞

Seizoensdecompositie

Kerstvertrekken zijn structureel winstgevend; het begin van het zomervakantieseizoen zorgt voor een sterke margedip. De 'Departure_Summer_Vacation'-variabele bleek als enige seizoensvariabele robuust significant.

🔗

Interactietermen

Verbanden tussen boekingsweek en week-in-advance zijn niet-lineair. Het toevoegen van zorgvuldig gekozen interactietermen — o.a. voor kerstboekingen in piekweken — leverde de grootste RWMSE-daling op (−0,29).

⏱️

Vertraagde variabelen

De grootste verbetering: vijf voorspelde lag-variabelen op basis van het WLS-model. De volgende marge is sterk gecorreleerd aan de vorige. RWMSE daalde met 3,23 — het meest impactvolle enkelvoudige datavormingstap in het gehele traject.

Wat betekent dit voor Sunweb?

Accuratere modellen, betere beslissingen

Dit project toont aan dat een doordachte combinatie van exploratieve data-analyse en een relatief toegankelijk model als WLS meer oplevert dan het blindelings toepassen van complexe technieken. Tijdreeksmodellen en dimensiereductie bleken voor dit specifieke dataset ongeschikt — een conclusie die we alleen konden trekken door ze rigoureus te toetsen.

Het eindresultaat: een open-source GitHub-repository die Sunweb direct kan implementeren en doorontwikkelen op actuele boekingsdata. Het model ondersteunt beslissingen rondom marketing, capaciteitsinkoop, cashflowprognoses en dynamische prijsstelling — precies de hefbomen die winstgevendheid in de reissector bepalen.

Soortgelijke resultaten voor uw organisatie?

Wij zetten uw data om in voorspelbare groei en strategisch voordeel.

Neem contact op