La Distribución Normal I con R y Python: Un Pilar Fundamental en el Análisis de Datos.

Nicolás Urrego
18 min readJul 14, 2023

En el emocionante mundo del análisis de datos, existe un concepto que se destaca por su relevancia y aplicabilidad en una amplia gama de escenarios: la distribución normal. La distribución normal, también conocida como la curva de Gauss o la campana de Gauss, es un modelo matemático que describe la forma en que los datos tienden a agruparse alrededor de un valor central.

La distribución normal desempeña un papel crucial en el análisis de datos, ya que muchos algoritmos y modelos asumen que los datos siguen este patrón. Al comprender la forma en que los datos se distribuyen, podemos utilizar algoritmos más efectivos y obtener resultados más precisos en nuestras predicciones y análisis.

Existen diversas técnicas para determinar si nuestros datos siguen una distribución normal. Estas técnicas nos permiten evaluar si podemos confiar en la suposición de normalidad y, en caso contrario, nos brindan herramientas para abordar datos que no cumplen con esta distribución

En resumen, comprender la distribución normal es esencial para realizar un análisis de datos sólido y confiable. Desde su definición y representación hasta su importancia en la aplicación de algoritmos y las técnicas para evaluar y manejar datos no normales, este artículo será tu guía para dominar este pilar fundamental en el mundo del análisis de datos.

Tabla de contenidos:

  1. ¿Qué es una distribución normal?
  2. Técnicas para detectar la normalidad en los datos
  3. Histograma y gráfico de densidad
  4. Gráficos de probabilidad normal (QQ-plot)
  5. Prueba de Shapiro-Wilk
  6. Prueba de Kolmogorov-Smirnov
  7. Prueba de Lilliefors
  8. Elección de la técnica más adecuada

¿Qué es una distribución normal?

En una distribución normal, los datos se distribuyen simétricamente alrededor de la media, lo que significa que la mitad de los datos se encuentran por encima de la media y la otra mitad por debajo. Además, la forma de la distribución sigue una curva en forma de campana, donde la mayoría de los datos se concentran cerca de la media y disminuyen gradualmente a medida que nos alejamos de ella.

La importancia de la distribución normal radica en que muchos fenómenos naturales y sociales tienden a seguir este patrón. Desde la estatura de las personas hasta los errores de medición, los puntajes en exámenes estandarizados y los datos económicos, una amplia gama de variables muestra una distribución aproximadamente normal.

La distribución normal es especialmente relevante en el análisis de datos debido a varias razones:

  1. Modelo ampliamente utilizado: Muchos métodos y técnicas estadísticas se basan en la suposición de que los datos siguen una distribución normal.
  2. Facilita la inferencia estadística: Al asumir una distribución normal, podemos aplicar herramientas estadísticas estándar para realizar inferencias sobre los datos. Esto incluye realizar pruebas de hipótesis, construir intervalos de confianza y realizar análisis de regresión, entre otros.
  3. Simplifica los cálculos: La distribución normal tiene propiedades matemáticas bien conocidas y establecidas. Esto facilita los cálculos y permite realizar estimaciones y predicciones más precisas.
  4. El Teorema Central del Límite: El Teorema Central del Límite establece que la suma o promedio de un gran número de variables aleatorias independientes tiende a seguir una distribución normal, incluso si las variables individuales no son normalmente distribuidas. Esto es fundamental en el análisis de muestras grandes y permite utilizar la distribución normal como una aproximación útil en muchos escenarios.

Al comprender y utilizar la distribución normal en el análisis de datos, los investigadores y analistas pueden obtener una comprensión más profunda de los fenómenos que están estudiando, realizar inferencias más sólidas y tomar decisiones basadas en evidencia estadística. Es una herramienta esencial en el campo de la estadística y desempeña un papel crucial en la toma de decisiones informadas en una amplia gama de disciplinas.

Técnicas para detectar la normalidad en los datos

Existen diversas técnicas y pruebas estadísticas que nos permiten evaluar la normalidad de los datos de manera objetiva y precisa. Estas técnicas nos proporcionan herramientas para identificar si los datos siguen o no una distribución normal.

Podemos utilizar técnicas visuales, como histogramas y gráficos de densidad, que nos permiten examinar la forma de los datos y determinar si se asemejan a una distribución normal. Además, existen pruebas estadísticas ampliamente utilizadas, como la prueba de Shapiro-Wilk, la prueba de Kolmogorov-Smirnov y la prueba de Lilliefors.

El conocimiento de estas técnicas nos permitirá realizar evaluaciones informadas y seleccionar las estrategias más adecuadas según las características de nuestros datos.

Histograma y gráfico de densidad

Una forma visual inicial de evaluar la normalidad es mediante la construcción de un histograma o un gráfico de densidad. Estas visualizaciones proporcionan una representación gráfica de la frecuencia o densidad relativa de los valores en diferentes rangos o intervalos

Permiten identificar la forma y simetría de la distribución, detectar valores atípicos y obtener información sobre la concentración o dispersión de los datos. En la distribución normal, los datos deberían seguir una forma de campana simétrica.

Para crear un histograma o un gráfico de densidad, los datos deben cumplir con ciertos requisitos:

  1. Datos numéricos: Tanto el histograma como el gráfico de densidad requieren que los datos sean numéricos, es decir, que representen valores cuantitativos.
  2. Datos univariados: Los datos deben ser univariados, es decir, representar una sola característica o medida para cada observación.
  3. Datos sin clasificar: Los datos deben estar en su forma bruta y sin clasificar. No deben haber sido agrupados previamente en categorías o intervalos.
  4. Datos completos: Los datos deben ser completos, es decir, no deben contener valores faltantes o nulos en la variable que se desea analizar. Los valores faltantes pueden afectar la precisión de la visualización y dar lugar a interpretaciones incorrectas.

Una vez que se cumplen estos requisitos, es posible crear un histograma o un gráfico de densidad para explorar y comprender la distribución de los datos.

A continuación tienes ejemplos de cómo crear histogramas y gráficos de densidad en R y Python:

Histograma y gráfico de densidad en R:

Puedes utilizar la función hist() para crear un histograma

# Vector de datos
datos <- c(2, 5, 7, 3, 4, 5, 6, 8, 4, 6, 5, 7, 3, 5, 4)

# Crear un histograma
hist(datos, main = "Histograma", xlab = "Valores", ylab = "Frecuencia")

Puedes utilizar la función density() para calcular la densidad y la función plot() para trazar el gráfico de densidad.

# Vector de datos
datos <- c(2, 5, 7, 3, 4, 5, 6, 8, 4, 6, 5, 7, 3, 5, 4)

# Calcular la densidad
densidad <- density(datos)

# Crear el gráfico de densidad con una línea de densidad
plot(densidad, main = "Gráfico de Densidad", xlab = "Valores", ylab = "Densidad")
lines(densidad, col = "red")

Histograma y gráfico de densidad en Python:

Puedes utilizar la biblioteca Matplotlib para crear un histograma

import matplotlib.pyplot as plt

# Lista de datos
datos = [2, 5, 7, 3, 4, 5, 6, 8, 4, 6, 5, 7, 3, 5, 4]

# Crear un histograma
plt.hist(datos, bins='auto')
plt.title("Histograma")
plt.xlabel("Valores")
plt.ylabel("Frecuencia")
plt.show()

Puedes utilizar la biblioteca Seaborn para crear un gráfico de densidad.

import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Lista de datos
datos = [2, 5, 7, 3, 4, 5, 6, 8, 4, 6, 5, 7, 3, 5, 4]

# Crear el gráfico de densidad con una línea de densidad
sns.kdeplot(datos)
sns.kdeplot(datos, color="red", linewidth=2) # Línea de densidad en rojo
plt.title("Gráfico de Densidad")
plt.xlabel("Valores")
plt.ylabel("Densidad")
plt.show()

Es importante tener en cuenta que los histogramas y gráficos de densidad son herramientas exploratorias y pueden variar en apariencia dependiendo de las decisiones tomadas al definir los intervalos o la función de densidad utilizada. Por lo tanto, recuerda ajustar los datos de entrada y personalizar los títulos, etiquetas y otros aspectos visuales según tus necesidades.

Gráficos de probabilidad normal (QQ-plot)

Los gráficos de probabilidad normal, también conocidos como QQ-plots, comparan los cuantiles de los datos con los cuantiles teóricos esperados de una distribución normal. Si los puntos en el gráfico se alinean aproximadamente en una línea recta, sugiere que los datos se ajustan a una distribución normal. Cualquier desviación significativa de la línea recta indica una falta de normalidad.

Para crear un gráfico de probabilidad normal (QQ-plot), los datos deben cumplir con los siguientes requisitos:

  1. Datos numéricos: Los datos deben ser numéricos, es decir, representar valores cuantitativos en lugar de categorías o variables categóricas.
  2. Datos univariados: El QQ-plot se utiliza para comparar la distribución de una sola variable con la distribución normal.
  3. Datos completos: Los datos deben ser completos, sin valores faltantes o nulos en la variable que se desea analizar.

Es importante tener en cuenta que el QQ-plot asume que los datos provienen de una población que sigue una distribución normal. Sin embargo, incluso si los datos no cumplen estrictamente con esta suposición, el QQ-plot puede proporcionar información útil sobre la desviación de la normalidad y ayudar a detectar patrones sistemáticos.

Es recomendable utilizar el QQ-plot en combinación con otras técnicas de evaluación de la normalidad, como pruebas estadísticas, para obtener una imagen más completa y precisa de la distribución de los datos.

Gráfico de probabilidad normal (QQ-plot) en R:

Puedes utilizar la función qqnorm() para crear un QQ-plot.

# Vector de datos
datos <- rnorm(100) # Ejemplo de datos aleatorios de una distribución normal

# Crear el QQ-plot
qqnorm(datos)
qqline(datos, col = "red") # Línea de referencia para una distribución normal

La función qqnorm() crea el gráfico de probabilidad normal y la función qqline() agrega una línea de referencia para una distribución normal.

Gráfico de probabilidad normal (QQ-plot) en Python:

Puedes utilizar la biblioteca statsmodels.graphics.gofplots para crear un QQ-plot.

import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm

# Vector de datos
datos = np.random.normal(size=100) # Ejemplo de datos aleatorios de una distribución normal

# Crear el QQ-plot
sm.qqplot(datos, line='45') # line='45' para una línea de referencia en 45 grados
plt.title("Gráfico de Probabilidad Normal (QQ-plot)")
plt.show()

La función sm.qqplot() de statsmodels crea el gráfico de probabilidad normal, y el argumento line='45' agrega una línea de referencia en 45 grados para una distribución normal.

Prueba de Shapiro-Wilk

La prueba de Shapiro-Wilk es una prueba estadística que evalúa si una muestra de datos se ajusta a una distribución normal. Esta prueba proporciona un valor p, que indica la probabilidad de que los datos sean normalmente distribuidos.

El objetivo de la prueba de Shapiro-Wilk es evaluar la hipótesis nula de que los datos provienen de una población que sigue una distribución normal. La hipótesis alternativa sería que los datos no siguen una distribución normal.

En términos generales, si el valor p es mayor que un nivel de significancia predefinido (por ejemplo, 0.05), no se rechaza la hipótesis nula y se concluye que los datos se ajustan a una distribución normal. Por el contrario, si el valor p es menor que el nivel de significancia, se rechaza la hipótesis nula y se concluye que los datos no siguen una distribución normal.

Para aplicar la prueba de Shapiro-Wilk, los datos deben cumplir con los siguientes requisitos:

  1. Datos numéricos: La prueba de Shapiro-Wilk está diseñada para datos numéricos.
  2. Datos univariados: La prueba de Shapiro-Wilk es aplicable solo a muestras univariadas.
  3. Independencia: Los datos deben ser independientes entre sí, lo que implica que no debe haber ninguna relación o dependencia sistemática entre las observaciones.
  4. Muestra pequeña o moderada: La prueba de Shapiro-Wilk es más confiable y precisa con muestras pequeñas a moderadas (generalmente hasta alrededor de 5,000 observaciones). Para muestras muy grandes, la prueba puede detectar incluso las desviaciones mínimas de la normalidad y puede llevar al rechazo de la hipótesis nula.

Es importante tener en cuenta que la prueba de Shapiro-Wilk es sensible al tamaño de la muestra y puede resultar en un poder inadecuado para detectar desviaciones menores de la normalidad en muestras grandes. Por lo tanto, si tienes una muestra grande, puede ser más útil combinar la prueba de Shapiro-Wilk con otras técnicas o enfoques de evaluación de la normalidad.

Además, ten en cuenta que la prueba de Shapiro-Wilk es una herramienta estadística y no garantiza que los datos sean exactamente normales o no normales. Proporciona una evaluación basada en la evidencia estadística y una interpretación probabilística de la normalidad de los datos.

Código en R:

# Vector de datos
datos <- c(2, 5, 7, 3, 4, 5, 6, 8, 4, 6, 5, 7, 3, 5, 4)

# Calcular la prueba de Shapiro-Wilk
resultado <- shapiro.test(datos)

# Imprimir los resultados
print(resultado)
Shapiro-Wilk normality test

data: datos
W = 0.96965, p-value = 0.8529

El resultado de la prueba de Shapiro-Wilk en R muestra lo siguiente:

  • W = 0.96965: Es el valor del estadístico de prueba de Shapiro-Wilk.
  • p-value = 0.8529: Es el valor p, que indica la probabilidad asociada a la hipótesis nula de que los datos provengan de una distribución normal. En este caso, el valor p es 0.8529, lo cual indica que no hay suficiente evidencia para rechazar la hipótesis nula de normalidad. Esto sugiere que los datos pueden seguir una distribución normal.

Código en Python:

import scipy.stats as stats
import numpy as np

# Vector de datos
datos = np.array([2, 5, 7, 3, 4, 5, 6, 8, 4, 6, 5, 7, 3, 5, 4])

# Calcular la prueba de Shapiro-Wilk
resultado = stats.shapiro(datos)

# Imprimir los resultados
print(resultado)
ShapiroResult(statistic=0.969651997089386, pvalue=0.8528673052787781)

El resultado de la prueba de Shapiro-Wilk en Python muestra lo siguiente:

  • statistic = 0.969651997089386: Es el valor del estadístico de prueba de Shapiro-Wilk.
  • pvalue = 0.8528673052787781: Es el valor p, que indica la probabilidad asociada a la hipótesis nula de que los datos provengan de una distribución normal. En este caso, el valor p es 0.8528673052787781, lo cual indica que no hay suficiente evidencia para rechazar la hipótesis nula de normalidad. Esto sugiere que los datos pueden seguir una distribución normal.

Tanto en R como en Python, el resultado de la prueba de Shapiro-Wilk incluirá estadísticas de prueba y valores p, los cuales indicarán la probabilidad de que los datos provengan de una distribución normal.

Prueba de Kolmogorov-Smirnov

La prueba de Kolmogorov-Smirnov también se utiliza para evaluar si una muestra de datos sigue una distribución normal. Esta prueba compara la distribución acumulativa de los datos con la distribución acumulativa esperada de una distribución normal.

El objetivo de la prueba de Kolmogorov-Smirnov es evaluar la hipótesis nula de que los datos siguen una distribución específica, como la distribución normal, exponencial o uniforme. La hipótesis alternativa sería que los datos no siguen esa distribución.

Calcula un estadístico de prueba, denominado estadístico D de Kolmogorov-Smirnov, que mide la máxima discrepancia entre las dos distribuciones. La interpretación del estadístico D depende del enfoque utilizado: un valor pequeño del estadístico D sugiere una buena concordancia entre los datos y la distribución de interés, mientras que un valor grande sugiere una discrepancia significativa.

La prueba de Kolmogorov-Smirnov también proporciona un valor p, que indica la probabilidad de obtener una discrepancia igual o mayor entre los datos y la distribución de interés, si la hipótesis nula es verdadera. Si el valor p es menor que un nivel de significancia predefinido, se rechaza la hipótesis nula y se concluye que los datos no siguen la distribución específica.

Para aplicar la prueba de Kolmogorov-Smirnov, los datos deben cumplir con los siguientes requisitos:

  1. Datos numéricos: La prueba de Kolmogorov-Smirnov se aplica a datos numéricos.
  2. Datos univariados: Se aplica a una sola variable medida para cada observación.
  3. Independencia: Los datos deben ser independientes entre sí, lo que implica que no debe haber ninguna relación o dependencia sistemática entre las observaciones.
  4. Distribución continua: La prueba de Kolmogorov-Smirnov se basa en la suposición de que los datos provienen de una distribución continua. Si los datos son discretos o tienen una gran cantidad de empates (valores repetidos), se recomienda utilizar pruebas estadísticas específicas para datos discretos.

Es importante tener en cuenta que la prueba de Kolmogorov-Smirnov no requiere una muestra de tamaño específico para su aplicación. Sin embargo, la interpretación del estadístico D y el valor p puede verse afectada por el tamaño de la muestra. En general, para muestras más grandes, la prueba tiene más poder para detectar diferencias en la distribución y puede ser más sensible.

Código en R:

# Vector de datos
datos <- c(2, 5, 7, 3, 4, 5, 6, 8, 4, 6, 5, 7, 3, 5, 4)

# Realizar la prueba de Kolmogorov-Smirnov
resultado <- ks.test(datos, "pnorm", mean = mean(datos), sd = sd(datos))

# Imprimir los resultados
print(resultado)
One-sample Kolmogorov-Smirnov test

data: datos
D = 0.15072, p-value = 0.885
alternative hypothesis: two-sided

El resultado de la prueba de Kolmogorov-Smirnov en R muestra lo siguiente:

  • D = 0.15072: Es el valor del estadístico de prueba de Kolmogorov-Smirnov.
  • p-value = 0.885: Es el valor p, que indica la probabilidad asociada a la hipótesis nula de que los datos siguen la distribución especificada. En este caso, el valor p es 0.885, lo cual indica que no hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que los datos son consistentes con la distribución especificada.

La alternativa a la hipótesis nula se establece como “two-sided” en este caso, lo que significa que la prueba considera tanto desviaciones positivas como negativas de la distribución especificada.

Código en Python:

import scipy.stats as stats
import numpy as np

# Crear un vector de datos
datos = np.array([2, 5, 7, 3, 4, 5, 6, 8, 4, 6, 5, 7, 3, 5, 4])

# Realizar la prueba de Kolmogorov-Smirnov
resultado = stats.kstest(datos, 'norm', args=(np.mean(datos), np.std(datos)))

# Imprimir los resultados
print(resultado)
KstestResult(statistic=0.15016302772001022, pvalue=0.8396252340005408, statistic_location=5, statistic_sign=1)

El resultado de la prueba de Kolmogorov-Smirnov en Python muestra lo siguiente:

KstestResult(statistic=0.15016302772001022, pvalue=0.8396252340005408, statistic_location=5, statistic_sign=1):

  • statistic = 0.15016302772001022: Es el valor del estadístico de prueba de Kolmogorov-Smirnov.
  • pvalue = 0.8396252340005408: Es el valor p, que indica la probabilidad asociada a la hipótesis nula de que los datos siguen la distribución especificada. En este caso, el valor p es 0.8396252340005408, lo cual indica que no hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que los datos son consistentes con la distribución especificada.

El atributo statistic_location indica la ubicación del estadístico en relación a la distribución especificada. El valor de statistic_location es 5, lo que indica que el estadístico D se encuentra en el lado derecho de la distribución especificada.

El atributo statistic_sign indica la dirección del estadístico en relación a la distribución especificada. El valor de statistic_sign es 1, lo que indica que el estadístico D está en la dirección positiva de la distribución especificada.

Prueba de Lilliefors

Similar a la prueba de Kolmogorov-Smirnov, la prueba de Lilliefors evalúa si los datos se ajustan a una distribución normal. Sin embargo, a diferencia de la prueba de Kolmogorov-Smirnov, la prueba de Lilliefors tiene en cuenta la estimación de los parámetros de la distribución a partir de la muestra, lo que puede mejorar su precisión en muestras pequeñas.

La prueba calcula un estadístico de prueba similar al estadístico D de la prueba de Kolmogorov-Smirnov, y se utiliza para obtener un valor p que indica la probabilidad de obtener una discrepancia igual o mayor entre los datos y la distribución estimada, si la hipótesis nula de que los datos siguen la distribución específica es verdadera.

Para aplicar la prueba de Lilliefors, los datos deben cumplir con los siguientes requisitos:

  1. Datos numéricos: La prueba de Lilliefors se aplica a datos numéricos.
  2. Datos univariados: Se aplica a una sola variable medida para cada observación.
  3. Independencia: Los datos deben ser independientes entre sí.
  4. Distribución continua: La prueba de Lilliefors asume que los datos provienen de una distribución continua. Por lo tanto, se recomienda utilizarla para evaluar la adhesión de los datos a distribuciones continuas, como la distribución normal, exponencial o uniforme.

Es importante tener en cuenta que la prueba de Lilliefors es una variante de la prueba de Kolmogorov-Smirnov y se utiliza principalmente cuando los parámetros de la distribución teórica no están completamente especificados. Esto significa que la prueba es más adecuada cuando se desconocen los parámetros de la distribución subyacente o cuando se desea realizar una prueba de bondad de ajuste sin especificar los parámetros.

Recuerda que, al igual que con cualquier prueba de hipótesis, los resultados de la prueba de Lilliefors deben interpretarse en conjunto con otros análisis y consideraciones. Es importante utilizarla en combinación con técnicas adicionales y juicio experto para obtener una evaluación completa de la adhesión de los datos a la distribución específica.

Código en R:

# Instalar el paquete "nortest" si no está instalado
if (!require("nortest")) {
install.packages("nortest")
}

# Cargar el paquete "nortest"
library("nortest")

# Vector de datos
datos <- c(2, 5, 7, 3, 4, 5, 6, 8, 4, 6, 5, 7, 3, 5, 4)

# Realizar la prueba de Lilliefors
resultado <- lillie.test(datos)

# Imprimir los resultados
print(resultado)
 Lilliefors (Kolmogorov-Smirnov) normality test

data: datos
D = 0.15072, p-value = 0.4758

El resultado de la prueba de Lilliefors en R muestra lo siguiente:

  • D = 0.15072: Es el valor del estadístico de prueba de Lilliefors.
  • p-value = 0.4758: Es el valor p, que indica la probabilidad asociada a la hipótesis nula de que los datos siguen una distribución normal. En este caso, el valor p es 0.4758, lo cual indica que no hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que los datos son consistentes con una distribución normal.

Código en Python:

import statsmodels.api as sm
import numpy as np

# Vector de datos
datos = np.array([2, 5, 7, 3, 4, 5, 6, 8, 4, 6, 5, 7, 3, 5, 4])

# Realizar la prueba de Lilliefors
resultado = sm.stats.lilliefors(datos)

# Extraer los valores de resultado
estadistico, p_valor = resultado

# Imprimir los resultados
print("Estadístico de prueba:", estadistico)
print("Valor p:", p_valor)
Estadístico de prueba: 0.1507223334043295
Valor p: 0.46963689760561855

El resultado de la prueba de Lilliefors en Python muestra lo siguiente:

  • El primer valor, 0.1507223334043295, representa el estadístico de prueba de Lilliefors.
  • El segundo valor, 0.46963689760561855, corresponde al valor p asociado a la hipótesis nula de que los datos siguen una distribución normal.

Con un valor p de 0.46963689760561855, no hay suficiente evidencia para rechazar la hipótesis nula. Esto indica que los datos son consistentes con una distribución normal.

Elección de la técnica más adecuada

La elección de la técnica más adecuada en función del tamaño de la muestra puede variar según el contexto y los objetivos del análisis. A continuación, se presentan algunas consideraciones generales:

  1. Para muestras pequeñas (n < 30): En general, las técnicas visuales como histogramas y gráficos de densidad son útiles para obtener una primera impresión de la distribución de los datos. Además, los gráficos de probabilidad normal (QQ-plot) pueden proporcionar una visualización rápida de la adhesión a una distribución normal.
  2. Para muestras medianas a grandes (n ≥ 30): En este caso, se puede utilizar una combinación de técnicas visuales y pruebas estadísticas, como la Prueba de Shapiro-Wilk, la Prueba de Kolmogorov-Smirnov y la Prueba de Lilliefors son más apropiadas en muestras más grandes debido a su mayor poder estadístico.
  3. Para muestras muy grandes (n ≥ 1000): En este caso, se dispone de una mayor capacidad para detectar desviaciones de la normalidad. Las pruebas estadísticas como la Prueba de Shapiro-Wilk, la Prueba de Kolmogorov-Smirnov y la Prueba de Lilliefors son más adecuadas debido a su mayor precisión estadística. Sin embargo, es importante considerar que incluso con muestras muy grandes, pequeñas desviaciones de la normalidad pueden ser detectadas y pueden requerir una evaluación adicional.

Recuerda que estas recomendaciones son generales y no deben considerarse reglas estrictas. Es fundamental tener en cuenta el contexto específico, la naturaleza de los datos y los objetivos del análisis al seleccionar las técnicas más apropiadas. Además, es recomendable combinar múltiples técnicas y considerar otros factores relevantes como los requerimientos de los datos para obtener una evaluación completa de la normalidad de los datos.

En conclusión, en este artículo hemos explorado la distribución normal, una de las distribuciones más importantes y ampliamente utilizadas en el análisis de datos. Hemos comprendido su forma característica en forma de campana y su importancia en diversos contextos.

Además, hemos examinado una variedad de técnicas para determinar si los datos siguen una distribución normal. Estas técnicas incluyen la construcción de histogramas y gráficos de densidad, la visualización de gráficos de probabilidad normal (QQ-plot), y la aplicación de pruebas estadísticas como la Prueba de Shapiro-Wilk, la Prueba de Kolmogorov-Smirnov y la Prueba de Lilliefors. Hemos aprendido los requisitos que los datos deben cumplir para aplicar estas técnicas y te he proporcionado ejemplos de código en R y Python para su implementación.

Es importante destacar que cada una de estas técnicas tiene sus propias fortalezas y limitaciones:

  • Los histogramas y gráficos de densidad son útiles para obtener una representación visual de la distribución de los datos, mientras que los gráficos de probabilidad normal (QQ-plot) permiten evaluar la desviación de los datos de una distribución normal.
  • Las pruebas estadísticas, como la Prueba de Shapiro-Wilk, la Prueba de Kolmogorov-Smirnov y la Prueba de Lilliefors, son herramientas más rigurosas que proporcionan una medida cuantitativa de la adhesión de los datos a una distribución normal.

En resumen, comprender y aplicar estas técnicas nos permite evaluar la normalidad de los datos, un aspecto crítico en el análisis estadístico. Al utilizar estas herramientas de manera adecuada, podemos tomar decisiones fundamentadas sobre los métodos de análisis estadístico a aplicar y garantizar resultados precisos e interpretaciones válidas de los datos.

--

--

Nicolás Urrego

Data Scientis | Data Analyst | Data Base | Machine Learning | Communicator | El mundo de datos en español para descubrir, aprender y compartir. 💡👨‍💻📈