Este repositorio contiene una serie de proyectos y ejercicios que he desarrollado como parte de mi formación en la asignatura "Arquitectura Big Data". El objetivo principal es mostrar los conceptos y técnicas que he aprendido en el manejo de grandes volúmenes de datos utilizando tecnologías como Apache Spark y PySpark.
Temas : PySpark RDD, Spark Broadcast, Flask, Mongo, Spark
-
Procesamiento de Datos con RDDs: Proyectos que ilustran cómo crear y transformar Resilient Distributed Datasets (RDDs) utilizando funciones básicas para manipular datos.
-
Análisis de Datos en Tiempo Real: Ejercicios que demuestran el uso de Spark para realizar análisis en tiempo real, optimizando el rendimiento y eficiencia en el procesamiento.
-
Simulación de Datos: Proyectos en los que he utilizado la librería Faker para generar conjuntos de datos simulados, facilitando el análisis y la práctica sin necesidad de datos reales.
-
Análisis de Texto: Ejercicios que incluyen el procesamiento de descripciones de patentes, mostrando cómo aplicar técnicas de análisis de texto y extracción de información.
- Python
- Env ambiente virtual en conda
- Apache Spark: Motor para tareas de ingeniería de datos, ciencia de datos y aprendizaje automático.