# Carga de las librerias necesarias

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.tsa.seasonal import seasonal_decompose


# Lectura del fichero con los datos y visualizacion de las primeras lineas

cyclists_df = pd.read_csv("data/number_of_cyclists.csv")

print(cyclists_df.head())

        Datetime  HCB01  HCB02  HCB03  HCB04  HCB05  HCB06  HCB07  HCB08  \
0  1/1/2014 0:00    NaN    7.0    NaN    1.0    NaN    NaN    NaN    NaN   
1  1/1/2014 1:00    NaN    5.0    NaN    3.0    NaN    NaN    NaN    NaN   
2  1/1/2014 2:00    NaN    2.0    NaN    3.0    NaN    NaN    NaN    NaN   
3  1/1/2014 3:00    NaN    5.0    NaN    2.0    NaN    NaN    NaN    NaN   
4  1/1/2014 4:00    NaN    1.0    NaN    4.0    NaN    NaN    NaN    NaN   

   HCB09  ...  HCB11  HCB12  HCB13  HCB14  HCB15  HCB16  HCB17  HCB18  HCB19  \
0    NaN  ...    NaN    2.0    5.0    3.0    NaN   11.0    NaN    NaN    NaN   
1    NaN  ...    NaN    6.0    5.0    1.0    NaN    8.0    NaN    NaN    NaN   
2    NaN  ...    NaN    1.0    1.0    1.0    NaN   14.0    NaN    NaN    NaN   
3    NaN  ...    NaN    0.0    2.0    0.0    NaN    7.0    NaN    NaN    NaN   
4    NaN  ...    NaN    1.0    1.0    1.0    NaN    9.0    NaN    NaN    NaN   

   HCB20  
0    8.0  
1    4.0  
2   11.0  
3    3.0  
4    4.0  

[5 rows x 21 columns]


# De los datos de contaje, me quedo unicamente con la columna de la estacion Baana (HCB20)

cyclists_df = cyclists_df[["Datetime","HCB20"]]

cyclists_df = cyclists_df.rename(columns={"HCB20": "Total"})

print(cyclists_df.head())

        Datetime  Total
0  1/1/2014 0:00    8.0
1  1/1/2014 1:00    4.0
2  1/1/2014 2:00   11.0
3  1/1/2014 3:00    3.0
4  1/1/2014 4:00    4.0


# Busqueda de valores nulos (NaN) en la columna de recuento de ciclistas por hora
print(cyclists_df[cyclists_df['Total'].isnull()])
print(cyclists_df.isnull().sum())

             Datetime  Total
63435  28/3/2021 3:00    NaN
72172  27/3/2022 4:00    NaN
Datetime    0
Total       2
dtype: int64


# Sustitucion de los valores nulos por el valor 0 y verificacion de la operacion
cyclists_df = cyclists_df.fillna(0)
print(cyclists_df.isnull().sum())

Datetime    0
Total       0
dtype: int64


# Compruebo los parámetros estadísticos
print(cyclists_df.describe(include="all"))

             Datetime         Total
count           78888  78888.000000
unique          78888           NaN
top     1/1/2014 0:00           NaN
freq                1           NaN
mean              NaN    101.150381
std               NaN    127.430434
min               NaN      0.000000
25%               NaN     11.000000
50%               NaN     47.000000
75%               NaN    151.000000
max               NaN   1607.000000


# Representacion del histograma
g = sns.histplot(data=cyclists_df, x='Total', binwidth=25)

plt.title('Distribución del contaje de ciclistas por hora en la estación Baana')
plt.xlabel(None)
plt.ylabel(None)
g.set_yticks([])

plt.show()

# Representacion del boxplot
g = sns.boxplot(data=cyclists_df, y='Total')

plt.title('Boxplot del contaje de ciclistas por hora en la estación Baana')
plt.ylabel(None)
g.set_xticks([])

plt.show()


# Eliminacion de outliers del dataframe (el unico valor > 1000)
cyclists_df = cyclists_df[cyclists_df['Total'] <= 1000]

# Verificacion de los valores estadisticos
print(cyclists_df.describe(include="all"))

             Datetime         Total
count           78887  78887.000000
unique          78887           NaN
top     1/1/2014 0:00           NaN
freq                1           NaN
mean              NaN    101.131293
std               NaN    127.318404
min               NaN      0.000000
25%               NaN     11.000000
50%               NaN     47.000000
75%               NaN    151.000000
max               NaN    863.000000


# Conversion de la columna datetime a tipo Datetime para la gestion de las fechas
cyclists_df["Datetime"] = pd.to_datetime(cyclists_df["Datetime"], format="%d/%m/%Y %H:%M")


# Agregacion de los totales por dia en el dataframe cyclists_daily_df
cyclists_df["Date"] = cyclists_df["Datetime"].dt.to_period("D")
cyclists_daily_df = cyclists_df.groupby("Date")["Total"].sum().reset_index()

print(cyclists_daily_df.head())

         Date  Total
0  2014-01-01  289.0
1  2014-01-02  921.0
2  2014-01-03  912.0
3  2014-01-04  422.0
4  2014-01-05  497.0


# Agregacion de las medias mensuales a partir de los totales diarios
cyclists_daily_df["Date"] = pd.to_datetime(cyclists_daily_df["Date"].astype(str), format="%Y-%m-%d")
cyclists_daily_df["YearMonth"] = cyclists_daily_df["Date"].dt.to_period("M")

# Calculo de la media diaria por mes
cyclists_monthly_df = cyclists_daily_df.groupby("YearMonth")["Total"].mean().reset_index()

# Cambio de nombre del atributo para mayor claridad
cyclists_monthly_df = cyclists_monthly_df.rename(columns={"Total": "DailyAvg"})

# Conversion de la columna YearMonth a tipo Datetime para la gestion de las fechas
cyclists_monthly_df["YearMonth"] = pd.to_datetime(cyclists_monthly_df["YearMonth"].astype(str), format="%Y-%m")

# Visualizacion de los 5 primeros registros
print(cyclists_monthly_df.head())

   YearMonth     DailyAvg
0 2014-01-01   537.354839
1 2014-02-01   542.107143
2 2014-03-01  1114.516129
3 2014-04-01  2107.333333
4 2014-05-01  2806.419355


# Representación gráfica de la serie temporal
g = sns.lineplot(x="YearMonth", y="DailyAvg", data=cyclists_monthly_df)

plt.suptitle(
    "Evolución temporal de la media diaria de ciclistas por mes",
    fontsize=15,
    color="#454554"
)

plt.title(
    "Estación de contaje Baana. Periodo 2014-2022",
    fontsize=13,
    color="#73738c"
)

plt.xlabel(None)
plt.ylabel(None)

plt.show()


# Creación de un nuevo dataframe, copia del anterior, para poder generar la matriz para representar el heatmap
# sin afectar al dataframe original que se utilizará para generar la serie temporal
cyc_mth_heatmap = cyclists_monthly_df.copy()

# PASO 1. Extraccion del año y del mes de la fecha (campo YearMonth) - Parámetro '%b' para abreviatura del mes
cyc_mth_heatmap['Year'] = cyc_mth_heatmap['YearMonth'].dt.strftime('%Y')
cyc_mth_heatmap['Month'] = cyc_mth_heatmap['YearMonth'].dt.strftime('%b')


# PASO 2. Pivotar la tabla de manera que las columnas sean los meses
cyc_mth_heatmap = cyc_mth_heatmap.pivot(index="Year", columns="Month", values="DailyAvg")


# PASO 3. Reordenar las columnas de los meses, que ahora estan en orden alfabetico
cyc_mth_heatmap = cyc_mth_heatmap.loc[:,["Jan","Feb","Mar","Apr",
                                         "May","Jun","Jul","Aug",
                                         "Sep","Oct","Nov","Dec"]]


# Pintar el heatmap
sns.heatmap(data = cyc_mth_heatmap, cmap="Blues_r")

plt.suptitle(
    "Evolución temporal de la media diaria de ciclistas por mes",
    fontsize=15,
    color="#454554"
)

plt.title(
    "Estación de contaje Baana. Periodo 2014-2022",
    fontsize=13,
    color="#73738c"
)

plt.xlabel(None)
plt.ylabel(None)

plt.show()


#cycle_ts = pd.Series(cyclists_monthly_df["DailyAvg"], index=cyclists_monthly_df["YearMonth"])
cycle_ts = pd.Series(cyclists_monthly_df["DailyAvg"])
cycle_ts.index = cyclists_monthly_df["YearMonth"]

cycle_decomp = seasonal_decompose(cycle_ts, model="additive", period=12)

fig = cycle_decomp.plot()
plt.show()

Análisis de la serie temporal del recuento de paso de ciclistas por una estación de medida ubicada en la ciudad de Helsinki¶

1. Introducción¶

1.1 Breve introducción a las series temporales¶

1.2 Contexto del proyecto¶

1.3 Fuente de los datos¶

2. Carga de los datos y EDA¶

2.1 Lectura del fichero CSV¶

2.2 Validación de los datos¶

2.3 Análisis exploratorio¶

3. Visualización de la evolución temporal del recuento de ciclistas¶

3.1 Preparación de los datos¶

3.2 Representación gráfica de la serie temporal de recuento de ciclistas¶

3.3 Visualización de la serie temporal mediante un gráfico heatmap¶

4. Descomposición de la serie temporal¶

5. Conclusión¶