Este proyecto demuestra técnicas de limpieza de datos utilizando SQL, trabajando con un dataset que contiene errores comunes en entornos reales.
- Valores NULL
- Registros duplicados
- Formatos inconsistentes (ciudades en minúsculas)
- Emails inválidos
- Registros incompletos
Se utilizó ROW_NUMBER() para identificar y eliminar registros duplicados.
Se reemplazaron valores NULL en la columna edad con el promedio.
Las ciudades se transformaron a mayúsculas para consistencia.
Se identificaron emails inválidos mediante patrones.
Se eliminaron registros sin nombre.
- Uso de CTEs para limpieza de datos
- Manejo de datos incompletos
- Validación de calidad de datos
- Transformación y estandarización
- cleaning_queries.sql → contiene todo el proceso de limpieza