ИССЛЕДОВАТЕЛЬСКИЙ ПРОЕКТ ФИЗИЧЕСКИХ ХАРАКТЕРИСТИК АТЛЕТОВ И ИХ УСПЕХОВ В ОЛИМПИАДАХ ЗА 120 ЛЕТ
ПРОЕКТ ВЫПОЛНЕН НА ОСНОВЕ ДАТАСЕТА ПО ССЫЛКЕ
ОПИСАНИЕ МАТЕРИАЛА

Данный датасет содержит информацию об олимпийских спортсменах, их результатах и характеристиках. Основные данные включают:
  1. Демографические данные спортсменов: имя, пол, возраст, рост, вес.
  2. Командная принадлежность: страна, команда, национальный олимпийский комитет (NOC).
  3. Информация о соревнованиях: год, сезон (летние/зимние игры), город проведения, вид спорта, конкретное соревнование.
  4. Результаты: завоеванные медали (золото, серебро, бронза).

2.Богатый аналитический потенциал:

данные позволяют исследовать взаимосвязи между физическими характеристиками спортсменов и их успешностью.

нам всегда было интересно узнать, есть ли взаимосвязь между физическими характеристиками атлетов и их достижениями. данный датасет был идеален для этого.

Эта таблица была выбрана по нескольким причинам:

3.Олимпийские игры всегда вызывают общественный и личный интерес нашей команды.

1.Исторический охват:
содержит информацию за многие годы (начиная с 1976 года, судя по данным)
Для обработки данных таблицы и подтверждения наших гипотез были использованы следующие команды и библиотеки:
import pandas as pd - предназначенна для обработки и анализа структурированных табличных данных
import numpy as np - упрощает работу с массивами данных.
import matplotlib.pyplot as plt - помогает автоматически создавать оси, фигуры и другие компоненты.
import seaborn as sns - это библиотека для анализа данных и отображения сложных зависимостей с помощью графиков на языке Python

ПРЕДОБРАБОТКА ДАННЫХ
# Расчет среднего роста и разделение данных
mean_height = df2['Height'].mean() h = df2[df2['Height'] > mean_height] # Спортсмены выше среднего l = df2[df2['Height'] <= mean_height] # Спортсмены не выше среднего
# Удаление строк с пропусками в колонке 'Height'
# inplace=True означает модификацию исходного DataFrame
df2.dropna(subset=['Height'], inplace=True)
# Метод сортировки значений в DataFrame — sort_values(). by='Year' — указывается имя столбца ('Year'), по которому должна выполняться сортировка. ascending=False — задаёт порядок сортировки по убыванию (False означает от большего к меньшему).
# Подгружаем файл с датасетом, для дальнейшей работы с ним
df = pd.read_csv('C:/Users/student/Desktop/Чупин/athlete_events.csv')
# Используем функцию isna() для проверки наличия пропущенных значений (NaN, пустых строк, None и др.) в DataFrame. Она возвращает булев массив такого же размера, где значение True соответствует ячейке с отсутствующим значением, а False — существующему значению. df.isna() df.isna().sum()
# Из исходного DataFrame выбираем строки, в которых значения в колонке 'Year' больше 1972 года
df2 = df[df['Year'] > 1972]
# Подсчет пропусков в каждой колонке обновленного DataFrame
print(df2.isnull().sum())
ГИПОТЕЗЫ И ИХ ПРОВЕРКА
1
ЧЕМ МОЛОЖЕ АТЛЕТ, ТЕМ БОЛЕЕ ВЕРОЯТНО, ЧТО ОН ВЫИГРЫВАЕТ МЕДАЛЬ.
2
КОМАНДЫ СОЕДИНЁННЫХ ШТАТОВ ВЫИГРАЛИ БОЛЬШЕ ЗОЛОТЫХ МЕДАЛЕЙ, ЧЕМ КОМАНДЫ РОССИИ.
3
ЧЕМ ВЫШЕ АТЛЕТ, ТЕМ БОЛЬШЕ ШАНС, ЧТО ОН ВЫИГРАЕТ МЕДАЛЬ.
АНАЛИЗ РЕЗУЛЬТАТОВ
ГРАФИКИ И ТАБЛИЦЫ
ВЫВОДЫ
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website