Skip to content

danielhh-dev/data_cleaning_sql

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 

Repository files navigation

Data Cleaning with SQL

📌 Descripción

Este proyecto demuestra técnicas de limpieza de datos utilizando SQL, trabajando con un dataset que contiene errores comunes en entornos reales.

🧠 Problemas detectados

  • Valores NULL
  • Registros duplicados
  • Formatos inconsistentes (ciudades en minúsculas)
  • Emails inválidos
  • Registros incompletos

🛠️ Proceso de limpieza

1. Eliminación de duplicados

Se utilizó ROW_NUMBER() para identificar y eliminar registros duplicados.

2. Manejo de valores nulos

Se reemplazaron valores NULL en la columna edad con el promedio.

3. Normalización de texto

Las ciudades se transformaron a mayúsculas para consistencia.

4. Validación de datos

Se identificaron emails inválidos mediante patrones.

5. Eliminación de registros incompletos

Se eliminaron registros sin nombre.

🚀 Aprendizajes

  • Uso de CTEs para limpieza de datos
  • Manejo de datos incompletos
  • Validación de calidad de datos
  • Transformación y estandarización

📂 Estructura

  • cleaning_queries.sql → contiene todo el proceso de limpieza

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors