ИССЛЕДОВАТЕЛЬСКИЙ ПРОЕКТ ФИЗИЧЕСКИХ ХАРАКТЕРИСТИК АТЛЕТОВ И ИХ УСПЕХОВ В ОЛИМПИАДАХ ЗА 120 ЛЕТ

ПРОЕКТ ВЫПОЛНЕН НА ОСНОВЕ ДАТАСЕТА ПО ССЫЛКЕ

ОПИСАНИЕ МАТЕРИАЛА

Данный датасет содержит информацию об олимпийских спортсменах, их результатах и характеристиках. Основные данные включают:

Демографические данные спортсменов: имя, пол, возраст, рост, вес.
Командная принадлежность: страна, команда, национальный олимпийский комитет (NOC).
Информация о соревнованиях: год, сезон (летние/зимние игры), город проведения, вид спорта, конкретное соревнование.
Результаты: завоеванные медали (золото, серебро, бронза).

2.Богатый аналитический потенциал:

данные позволяют исследовать взаимосвязи между физическими характеристиками спортсменов и их успешностью.

нам всегда было интересно узнать, есть ли взаимосвязь между физическими характеристиками атлетов и их достижениями. данный датасет был идеален для этого.

Эта таблица была выбрана по нескольким причинам:

3.Олимпийские игры всегда вызывают общественный и личный интерес нашей команды.

1.Исторический охват:
содержит информацию за многие годы (начиная с 1976 года, судя по данным)

Для обработки данных таблицы и подтверждения наших гипотез были использованы следующие команды и библиотеки:
import pandas as pd - предназначенна для обработки и анализа структурированных табличных данных
import numpy as np - упрощает работу с массивами данных.
import matplotlib.pyplot as plt - помогает автоматически создавать оси, фигуры и другие компоненты.
import seaborn as sns - это библиотека для анализа данных и отображения сложных зависимостей с помощью графиков на языке Python

ПРЕДОБРАБОТКА ДАННЫХ

# Расчет среднего роста и разделение данных
mean_height = df2['Height'].mean() h = df2[df2['Height'] > mean_height] # Спортсмены выше среднего l = df2[df2['Height'] <= mean_height] # Спортсмены не выше среднего

# Удаление строк с пропусками в колонке 'Height'
# inplace=True означает модификацию исходного DataFrame
df2.dropna(subset=['Height'], inplace=True)

# Метод сортировки значений в DataFrame — sort_values(). by='Year' — указывается имя столбца ('Year'), по которому должна выполняться сортировка. ascending=False — задаёт порядок сортировки по убыванию (False означает от большего к меньшему).

# Подгружаем файл с датасетом, для дальнейшей работы с ним
df = pd.read_csv('C:/Users/student/Desktop/Чупин/athlete_events.csv')

# Используем функцию isna() для проверки наличия пропущенных значений (NaN, пустых строк, None и др.) в DataFrame. Она возвращает булев массив такого же размера, где значение True соответствует ячейке с отсутствующим значением, а False — существующему значению. df.isna() df.isna().sum()

# Из исходного DataFrame выбираем строки, в которых значения в колонке 'Year' больше 1972 года
df2 = df[df['Year'] > 1972]

# Подсчет пропусков в каждой колонке обновленного DataFrame
print(df2.isnull().sum())

ГИПОТЕЗЫ И ИХ ПРОВЕРКА

1
ЧЕМ МОЛОЖЕ АТЛЕТ, ТЕМ БОЛЕЕ ВЕРОЯТНО, ЧТО ОН ВЫИГРЫВАЕТ МЕДАЛЬ.

2
КОМАНДЫ СОЕДИНЁННЫХ ШТАТОВ ВЫИГРАЛИ БОЛЬШЕ ЗОЛОТЫХ МЕДАЛЕЙ, ЧЕМ КОМАНДЫ РОССИИ.

3
ЧЕМ ВЫШЕ АТЛЕТ, ТЕМ БОЛЬШЕ ШАНС, ЧТО ОН ВЫИГРАЕТ МЕДАЛЬ.

АНАЛИЗ РЕЗУЛЬТАТОВ

ГРАФИКИ И ТАБЛИЦЫ

ВЫВОДЫ