Kompleksowa analiza eksploracyjna danych pasażerów RMS Titanic z weryfikacją hipotez historycznych i odkryciem kluczowych czynników wpływających na przeżywalność.
- Kobiety: 74.2% przeżyło vs 18.9% mężczyzn
- Klasa społeczna: 1 klasa (62%) > 2 klasa (47%) > 3 klasa (24%)
- Dzieci: Wyższa przeżywalność zgodnie z zasadą "kobiety i dzieci pierwsze"
- Port zaokrętowania: Cherbourg (55.4%) najwyższa przeżywalność
- Cena biletu: Korelacja z szansami na przeżycie
- Ogólna przeżywalność: 38.2% (500 z 1,308 pasażerów)
- Rozdział płci: 64.4% mężczyźni, 35.6% kobiety
- Najstarszy ocalony: 80 lat (1 klasa)
- Odnalezione ciała: 121 z 809 ofiar
- Weryfikacja hipotez historycznych o katastrofie Titanica
- Identyfikacja kluczowych czynników wpływających na przeżywalność
- Analiza wzorców społecznych z 1912 roku
- Przygotowanie danych do potencjalnego modelowania predykcyjnego
- Eksploracja wstępna - przegląd struktury danych
- Czyszczenie danych - identyfikacja braków i duplikatów
- Analiza jednowymiarowa - rozkłady zmiennych
- Analiza wielowymiarowa - korelacje i zależności
- Wizualizacje zaawansowane - heatmapy, violin plots, scatter plots
- Weryfikacja hipotez - testowanie założeń historycznych
- Wnioski biznesowe - rekomendacje i insights
pandas
- manipulacja danymimatplotlib
- podstawowe wizualizacjeseaborn
- zaawansowane wykresy statystycznenumpy
- operacje numeryczne
📁 Eksploracyjna-Analiza-Danych-o-pasazerach-statku-Titanic/
├── 📄 README.md # Ten plik
├── 📊 EDA_Titanic.ipynb # Główny notebook z analizą
├── 📈 titanic_dane.csv # Dane źródłowe
├── 📋 requirements.txt # Zależności Python
├── 📜 LICENSE # Licencja MIT
├── 📋 CONTRIBUTING.md # Instrukcje współpracy
├── 📋 .gitignore # Reguły git
└── 📁 images/ # Wykresy dla README
├── cover1.png # Okładka projektu
├── age_distribution.png # Rozkład wieku
├── correlation_heatmap.png # Macierz korelacji
├── missing_data_heatmap.png # Braki danych
└── survival_by_sex_class.png # Przeżywalność
- Otwórz w Google Colab
- Wczytaj notebook z GitHub
- Uruchom wszystkie komórki
# Sklonuj repozytorium
git clone https://github.com/AlanSteinbarth/Eksploracyjna-Analiza-Danych-o-pasazerach-statku-Titanic.git
# Przejdź do katalogu
cd Eksploracyjna-Analiza-Danych-o-pasazerach-statku-Titanic
# Zainstaluj zależności
pip install -r requirements.txt
# Uruchom Jupyter
jupyter notebook EDA_Titanic.ipynb
Kobiety z wyższych klas miały najlepsze szanse na przeżycie
Największa grupa: 20-30 lat (ponad 350 osób)
Silna korelacja między klasą a ceną biletu
Znaczące braki w kolumnach: wiek (264), kabina (1015), łódź ratunkowa (824)
- Płeć żeńska - 4x większe szanse niż mężczyźni
- Wyższa klasa społeczna - dostęp do górnych pokładów
- Młodszy wiek - priorytet dla dzieci
- Port Cherbourg - korzystniejsze rozmieszczenie kabin
- Wyższa cena biletu - korelacja z klasą i lokalizacją
- ✅ Zasada "kobiety i dzieci pierwsze" była przestrzegana
- ✅ Klasa społeczna determinowała dostęp do szalup ratunkowych
- ✅ Lokalizacja kabin (górne pokłady) zwiększała szanse ewakuacji
- ✅ Część pasażerów podróżowała za darmo (załoga/dzieci)
Alan Steinbarth
- 🌐 GitHub
- 📧 Email: contact@victorymind.ai
- 🚀 Website: VictoryMind.ai
Ten projekt jest udostępniony na licencji MIT. Zobacz plik LICENSE dla szczegółów.
- Kaggle za udostępnienie datasetu Titanic
- Wikipedia za historyczne zdjęcia i informacje
- Społeczność Python za nieocenione biblioteki do analizy danych
⭐ Jeśli ten projekt był pomocny, zostaw gwiazdkę na GitHub!
Analiza została przeprowadzona w celach edukacyjnych i portfolio. Dane historyczne mogą zawierać nieścisłości charakterystyczne dla dokumentacji z 1912 roku.