Skip to content

AlanSteinbarth/Eksploracyjna-Analiza-Danych-o-pasazerach-statku-Titanic

Repository files navigation

🚢 Eksploracyjna Analiza Danych - Pasażerowie Titanica

Titanic EDA Cover

Made with Python Jupyter Notebook Pandas Matplotlib Seaborn MIT License Last Updated

Kompleksowa analiza eksploracyjna danych pasażerów RMS Titanic z weryfikacją hipotez historycznych i odkryciem kluczowych czynników wpływających na przeżywalność.


📊 Kluczowe Wyniki

Potwierdzone Hipotezy:

  • Kobiety: 74.2% przeżyło vs 18.9% mężczyzn
  • Klasa społeczna: 1 klasa (62%) > 2 klasa (47%) > 3 klasa (24%)
  • Dzieci: Wyższa przeżywalność zgodnie z zasadą "kobiety i dzieci pierwsze"
  • Port zaokrętowania: Cherbourg (55.4%) najwyższa przeżywalność
  • Cena biletu: Korelacja z szansami na przeżycie

📈 Kluczowe Statystyki:

  • Ogólna przeżywalność: 38.2% (500 z 1,308 pasażerów)
  • Rozdział płci: 64.4% mężczyźni, 35.6% kobiety
  • Najstarszy ocalony: 80 lat (1 klasa)
  • Odnalezione ciała: 121 z 809 ofiar

🎯 Cele Projektu

  1. Weryfikacja hipotez historycznych o katastrofie Titanica
  2. Identyfikacja kluczowych czynników wpływających na przeżywalność
  3. Analiza wzorców społecznych z 1912 roku
  4. Przygotowanie danych do potencjalnego modelowania predykcyjnego

🔍 Metodologia

Etapy Analizy:

  1. Eksploracja wstępna - przegląd struktury danych
  2. Czyszczenie danych - identyfikacja braków i duplikatów
  3. Analiza jednowymiarowa - rozkłady zmiennych
  4. Analiza wielowymiarowa - korelacje i zależności
  5. Wizualizacje zaawansowane - heatmapy, violin plots, scatter plots
  6. Weryfikacja hipotez - testowanie założeń historycznych
  7. Wnioski biznesowe - rekomendacje i insights

Użyte Biblioteki:

  • pandas - manipulacja danymi
  • matplotlib - podstawowe wizualizacje
  • seaborn - zaawansowane wykresy statystyczne
  • numpy - operacje numeryczne

📁 Struktura Projektu

📁 Eksploracyjna-Analiza-Danych-o-pasazerach-statku-Titanic/
├── 📄 README.md                              # Ten plik
├── 📊 EDA_Titanic.ipynb                      # Główny notebook z analizą
├── 📈 titanic_dane.csv                       # Dane źródłowe
├── 📋 requirements.txt                       # Zależności Python
├── 📜 LICENSE                               # Licencja MIT
├── 📋 CONTRIBUTING.md                       # Instrukcje współpracy
├── 📋 .gitignore                           # Reguły git
└── 📁 images/                              # Wykresy dla README
    ├── cover1.png                          # Okładka projektu
    ├── age_distribution.png                # Rozkład wieku
    ├── correlation_heatmap.png             # Macierz korelacji
    ├── missing_data_heatmap.png            # Braki danych
    └── survival_by_sex_class.png           # Przeżywalność

🔴 Live Demo

Open in Colab View on GitHub NBViewer


🚀 Jak uruchomić projekt

Opcja 1: Google Colab (Rekomendowana)

  1. Otwórz w Google Colab
  2. Wczytaj notebook z GitHub
  3. Uruchom wszystkie komórki

Opcja 2: Lokalna instalacja

# Sklonuj repozytorium
git clone https://github.com/AlanSteinbarth/Eksploracyjna-Analiza-Danych-o-pasazerach-statku-Titanic.git

# Przejdź do katalogu
cd Eksploracyjna-Analiza-Danych-o-pasazerach-statku-Titanic

# Zainstaluj zależności
pip install -r requirements.txt

# Uruchom Jupyter
jupyter notebook EDA_Titanic.ipynb

📊 Przykładowe Wizualizacje

Przeżywalność według płci i klasy

Przeżywalność według płci i klasy Kobiety z wyższych klas miały najlepsze szanse na przeżycie

Rozkład wieku pasażerów

Rozkład wieku Największa grupa: 20-30 lat (ponad 350 osób)

Heatmapa korelacji

Macierz korelacji Silna korelacja między klasą a ceną biletu

Analiza braków danych

Braki danych Znaczące braki w kolumnach: wiek (264), kabina (1015), łódź ratunkowa (824)


🎯 Kluczowe Wnioski

Czynniki Zwiększające Szanse na Przeżycie:

  1. Płeć żeńska - 4x większe szanse niż mężczyźni
  2. Wyższa klasa społeczna - dostęp do górnych pokładów
  3. Młodszy wiek - priorytet dla dzieci
  4. Port Cherbourg - korzystniejsze rozmieszczenie kabin
  5. Wyższa cena biletu - korelacja z klasą i lokalizacją

Insights Historyczne:

  • ✅ Zasada "kobiety i dzieci pierwsze" była przestrzegana
  • ✅ Klasa społeczna determinowała dostęp do szalup ratunkowych
  • ✅ Lokalizacja kabin (górne pokłady) zwiększała szanse ewakuacji
  • ✅ Część pasażerów podróżowała za darmo (załoga/dzieci)

👨‍💻 Autor

Alan Steinbarth


📜 Licencja

Ten projekt jest udostępniony na licencji MIT. Zobacz plik LICENSE dla szczegółów.


🙏 Podziękowania

  • Kaggle za udostępnienie datasetu Titanic
  • Wikipedia za historyczne zdjęcia i informacje
  • Społeczność Python za nieocenione biblioteki do analizy danych

⭐ Jeśli ten projekt był pomocny, zostaw gwiazdkę na GitHub!


Analiza została przeprowadzona w celach edukacyjnych i portfolio. Dane historyczne mogą zawierać nieścisłości charakterystyczne dla dokumentacji z 1912 roku.