Este proyecto consiste en un análisis de los datos de viajes de YellowCab en la ciudad de Nueva York, utilizando Apache Spark para procesar grandes volúmenes de datos. Se realizan estudios sobre:
- Velocidad media de los taxis en función de la hora.
- Viajes en taxi más comunes.
- Media de la cantidad total pagada en función del número de pasajeros.
Esto se consigue mediante la implementación de consultas mediante Spark SQL, DataFrames y RDDs. El objetivo principal es realizar un análisis de rendimiento comparativo entre estas técnicas.
El contenido de este proyecto se encuentra en el archivo .ipynb