Kundenprojekt: Die Arbeit mit 7 Millionen Zeilen

Es war wieder eine interessante Woche!

Diesmal haben wir nicht als ein großes Team an einem Projekt gearbeitet sondern uns in Zweierteam aufgeteilt und jedes Team war für ein Projekt verantwortlich. Es gab drei Projekte und unser Team hat das Projekt mit einem Datensatz von 7 Millionen Zeilen erhalten. Es war bisher der größte Datensatz, mit dem wir uns beschäftigt haben. Er handelt von einem öffentlichen Datensatz von der FAA (Federal Aviation Administration) zu Flugleistung und Verspätungen für US-Inlandsflüge im Jahr 2024. Als Ergebnis haben wir zwei Dashboards, eins für die KPIs und eins für die Analyse der inländischen Betriebsleistung und der Ursache der Verzögerung. Das untere Bild zeigt das zweite Dashboard, für das ich zuständig war (Link zu Tableau Public).

Die größte Herausforderung für mich war die Einarbeitung in den Daten und die Überlegung für geschäftsbezogenen Fragen. Wir wollten das zweite Dashboard für eine detaillierte Ansicht zu einem bestimmten Thema erstellen aber konnten uns nicht entscheiden, welches Thema am interessantesten wäre. Letztendlich haben wir uns auf die Verspätung der einzelnen Aircrafts beziehungsweise Airlines konzentrieren und folgende User-Story ausgearbeitet:

"Als Betriebsleiter der FAA möchte ich eine übersichtliche Zusammenfassung der Leistung der Fluggesellschaften im Jahr 2024 einsehen, die sowohl die Gesamtübersicht als auch die fluggesellschaftsspezifische Aufschlüsselung der Verspätungsursachen sowie die Pünktlichkeits- und Ausfallquoten vergleicht, damit ich die Fluggesellschaften und Verspätungskategorien, die den dringendsten Handlungsbedarf und die größte Ressourcenallokation erfordern, um die Effizienz des Flugverkehrs zu verbessern, sofort identifizieren kann."

Wir haben uns erstmal mit einem Datenausschnitt mit 10 Tausend Zeilen beschäftigt. Die wichtigsten Variablen sind die Airlines, die Ankunfts- und Abflugsverspätung und die Verspätungsgründe. Dabei sind uns folgende Fragen aufgekommen:

  • Wie sehen die tatsächliche Verspätungsdauer pro Woche durchschnittlich aus? Sind sie wie erwartet hoch in der Hauptsaison?
  • Welche Airlines haben die wenigsten und meisten verspäteten Flüge?
  • Was ist der Hauptgrund für die Verspätungen?
  • Wie sehen die durchschnittliche Ankunftsverspätung im Vergleich zur Abflugsverpätung pro Airline aus? Welche Airlines haben die niedrigsten und höchsten Verspätungsdauer im Durchschnitt?

Da wir keine Informationen beispielsweise zur tatsächlichen Verspätungsdauer haben, mussten wir sie erstmal manuell berechnen. Außerdem kann ein Flug mehrere Verspätungsgründe haben und wir wollen den entscheidenden Grund pro Flug herausfinden, deshalb haben wir Alteryx zum Aufbereiten verwendet. Der Vorteil beim Arbeiten mit einem Datenausschnitt ist groß, da wir vorab überprüfen können, ob das Aufbereitungsergebnis wie erwartet aussieht, und die Rechenleistung nicht zu sehr belastet wird. Am Ende mussten wir nur den Datenausschnitt durch den richtigen Datensatz mit 7 Mio. Zeilen ersetzen.

Zusammengefasst war die Arbeit mit einem Datensatz dieser Größe anspruchsvoll, hat sich aber ausgezahlt. Was am Anfang wie eine überwältigte Menge wirkte, wurde durch strukturiertes Vorgehen zu einer klaren Analyse. Für die Zukunft könnte man in Richtung von Leistungsanalyse der einzelnen Flughäfen gehen und so noch dynamischere Einblicke zu gewinnen.

Author:
Anh Vu
Powered by The Information Lab
1st Floor, 25 Watling Street, London, EC4M 9BR
Subscribe
to our Newsletter
Get the lastest news about The Data School and application tips
Subscribe now
© 2025 The Information Lab