Poniższy projekt to eksploracyjna analiza danych (EDA) dotycząca trzęsień ziemi, które wystąpiły na całym świecie w okresie od stycznia 2001 do stycznia 2023 roku. Celem analizy było dogłębne zbadanie zbioru danych, oczyszczenie go, a następnie odkrycie wzorców, trendów i kluczowych korelacji za pomocą wizualizacji i metod statystycznych.
🏆 Projekt został oceniony na maksymalną liczbę punktów (20/20)! 🏆
Głównym celem było udzielenie odpowiedzi na szereg pytań badawczych dotyczących zjawisk sejsmicznych, takich jak:
- Jak rozkładała się częstotliwość i siła trzęsień ziemi w czasie i w różnych regionach geograficznych?
- Które kraje i kontynenty są najbardziej narażone na aktywność sejsmiczną?
- Jakie zależności istnieją między kluczowymi parametrami, takimi jak magnituda, głębokość epicentrum czy znaczenie zdarzenia (
sig
)? - Czy istnieją różnice w charakterystyce trzęsień ziemi w zależności od ich źródła (np. lądowe vs. oceaniczne, powodujące tsunami)?
-
Przygotowanie i Czyszczenie Danych, czyli m.in.:
- Wczytanie i wstępna inspekcja surowego zbioru danych zawierającego 18 zmiennych.
- Zaawansowane czyszczenie danych: Identyfikacja i uzupełnienie brakujących wartości w kolumnach
country
icontinent
na podstawie informacji z innych zmiennych (np.location
). To był kluczowy krok, ponieważ puste pola nie były oznaczone jakoNA
. - Transformacja zmiennych: Rozdzielenie kolumny
date_time
na datę i czas, zmiana typów danych (np.tsunami
na zmienną kategorycznącause
) dla ułatwienia analizy.
-
Analiza Eksploracyjna i Wizualizacja, m.in.:
- Tworzenie wizualizacji w celu zbadania rozkładu trzęsień w czasie, ich siły w zależności od kontynentu i przyczyny.
- Analiza geograficzna w celu identyfikacji regionów o największej aktywności sejsmicznej.
-
Analiza Statystyczna, m.in.:
- Obliczenie macierzy korelacji Pearsona i Spearmana w celu zbadania związków liniowych i monotonicznych między zmiennymi numerycznymi.
- Weryfikacja hipotez, w tym sprawdzenie zasady Pareto (80/20) dla lokalizacji trzęsień ziemi.
Projekt został w całości zrealizowany w języku R, z wykorzystaniem następujących kluczowych bibliotek:
- Manipulacja danymi:
dplyr
,tidyr
,stringr
- Wizualizacja danych:
ggplot2
,corrplot
- Analiza statystyczna:
psych
- Obsługa braków danych:
mice
- Dominacja Pacyficznego Pierścienia Ognia: Największa aktywność sejsmiczna koncentruje się w Azji i Oceanii. Kraje takie jak Indonezja, Japonia, Papua-Nowa Gwinea i Chile odnotowały najwięcej zdarzeń.
- Zasada Pareto: Analiza potwierdziła, że blisko 80% wszystkich trzęsień ziemi wystąpiło w zaledwie 20% badanych krajów, co jest zgodne z zasadą Pareto.
- Korelacja między Siłą a Skutkami: Wykazano silną monotoniczną korelację dodatnią (0.77 wg wsp. Spearmana) między magnitudą a skalą wpływu zdarzenia (
sig
), co potwierdza, że większa magnituda generalnie oznacza poważniejsze skutki. - Charakterystyka Głębokości: Trzęsienia ziemi mające źródło w oceanach (powodujące tsunami) charakteryzują się średnio większą głębokością epicentrum niż te na lądzie.
- Trendy Czasowe: Średnio rocznie obserwowano około 35 silnych trzęsień ziemi, ze szczególnym nasileniem w latach 2013-2015.
Projekt zdobył 100% możliwych do zdobycia punktów (20/20). Poniżej znajduje się opinia nauczyciela prowadzącego przedmiot, który oceniał projekt:
"Zdecydowanie dużym plusem projektu jest uwaga, z jaką przygotowano do badania zestaw danych. Sam przebieg badania jest ciekawie opisany, a wizualizacje z reguły bardzo staranne i przemyślane (choć szkoda, że na niektórych tło jest inne, tj. szare). Od strony technicznej, programistycznej i merytorycznej jest naprawdę dobrze, więc pozostaje mi pogratulować rzetelnie wykonanej analizy."