PRUEBAS DE BONDAD DE AJUSTE
Prueba Ji
cuadrada
La prueba Ji cuadrada hace uso de la distribución del mismo nombre para probar
la bondad del ajuste al comparar el estadístico de prueba Xo2 con
el valor en tablas de la mencionada distribución Ji cuadrada con v grados
de libertad y un nivel de significancia alfa. En la siguiente sección aplicaremos esta
prueba para probar la hipótesis nula de que los números aleatorios
(provenientes de un generador) se ajustan a la distribución teórica uniforme
continua.
Sea X una
variable aleatoria discreta con valores x1, x2,......., xn Se propone la hipótesis nula H0, de que
la distribución de donde proviene la muestra se comporta según un modelo
teórico específico tal como la uniforme, la exponencial, la normal, etc.
Entonces FOi, representa
el número de veces que ocurre el valor xi mientras que FEi, es la
frecuencia esperada proporcionada por el modelo teórico propuesto. A menudo
ocurre que muchas de las frecuencias FEi, (y también las FOi) son muy pequeñas, entonces, como regla práctica
adoptamos el criterio de agrupar los valores consecutivos de estas frecuencias
esperadas hasta que su suma sea de al menos cinco. La medida estadística de
prueba para la hipótesis nula es
Para n grande
este estadístico de prueba tiene una distribución X2 aproximada
con V grados
de libertad dados por
V = (k –1) – (número de parámetros
estimados)
así, si se estiman dos
parámetros como la media y la varianza, la medida estadística tendrá (k – 3)
grados de libertad.
Se puede aplicar esta
prueba a variables continuas agrupando adecuadamente los valores en un número
adecuado de subintervalos o clases k. Una regla empírica para seleccionar el número
de clases es:
Otra prueba para la bondad de
ajuste se apoya en la distribución de Kolmogorov
– Smirnov la que al ser desarrollada para variables continuas la hace más
poderosa por ejemplo, en el caso de los números aleatorios, que la Ji cuadrada.
Por esta razón, en esta sección la presentamos para un caso distinto al de la
distribución continua.
Definamos la siguiente función
de distribución empírica. Supóngase que Y es una variable aleatoria continua que
tiene una función de distribución F(y). Una muestra aleatoria de n
realizaciones de Y produce
las observaciones y1, y2, ..., yn.
Reordenemos esos valores observados de menor a mayor, y las yi ordenadas
se representan mediante y(1) y(2) ..., y(n). Es decir, si y1 = 7, y2 = 9 y y3 = 3,
entonces y(1) = 3, y(2) = 7 y y(3) = 9.
Ahora bien, la función de distribución acumulada empírica esta definida por:
F n(y) =
fracción de la muestra menor o igual a y
Supóngase que se toma una
variable aleatoria continua Y, bajo la hipótesis nula, que tiene una función de
distribución representada por F (y). La hipótesis alterna es que F (y) no es
la función verdadera de distribución de es la función verdadera de distribución
de Y. Después de
observar una muestra aleatoria de n valores de Y, F (y) debe
estar “cerca“ de F n(y)siempre y
cuando sea verdadera la hipótesis nula. Por lo tanto, la medida estadística
debe apreciar la cercanía de F(y) a Fn(y) en todo el intervalo de valores de y.
La medida estadística D de
K-S se basa en la distancia máxima entre F(y) y Fn(y), es decir,
D = máx
¦ F(y) - Fn(y) ¦
Se rechaza la hipótesis nula
si D es
“demasiado grande”.
Como F(y) y Fn(y) no
son decrecientes y Fn(y) es
constante entre observaciones de muestra, la desviación máxima entre F(y) y Fn(y), se
presentará ya sea en uno de los puntos de observación y1 , ... yn , o
inmediatamente a la izquierda de uno de ellos. Para determinar el valor
observado de D, se necesita
entonces comprobar tan sólo
D+ = máx
y
D- = máx
Ya que
D = máx
(D+ , D-)
Si en H0 se
supone la forma de F (y), pero se
deja sin especificar algunos de los parámetros, entonces éstos se deben estimar
a parir de los datos de la muestra antes de poder llevar a cabo la prueba.
TABLA DE KOLMOGOROV – SMIRNOV DE STEPHENS. Puntos
porcentuales del extremo superior para D modificada
¿Para
qué sirven?
En
la práctica, muchas veces los diseños muéstrales usados no satisfacen los
supuestos del muestreo aleatorio simple; algunas observaciones pueden tener
diferentes probabilidades de selección o, por razones logísticas, los
individuos de una muestra forman conglomerados, causando que las unidades
muéstrales no sean independientes.
Áreas
de práctica:
- Almacenes
- Líneas de
producción
- Selección de
materiales
- Trasporte optimo
EJEMPLOS:
La
siguiente muestra de tamaño 50 ha sido obtenida de una población que registra
la vida útil (en unidades de tiempo) de baterías alcalinas tipo AAA. Pruébese
la hipótesis nula de que la variable aleatoria vida útil de las baterías sigue
una distribución exponencial negativa. Considérese un nivel de significancia
alpha de 5%.
8.223
|
0.836
|
2.634
|
4.778
|
0.406
|
0.517
|
2.330
|
2.563
|
0.511
|
6.426
|
2.230
|
3.810
|
1.624
|
1.507
|
2.343
|
1.458
|
0.774
|
0.023
|
0.225
|
3.214
|
2.920
|
0.968
|
0.333
|
4.025
|
0.538
|
0.234
|
3.323
|
3.334
|
2.325
|
7.514
|
0.761
|
4.490
|
1.514
|
1.064
|
5.088
|
1.401
|
0.294
|
3.491
|
2.921
|
0.334
|
1.064
|
0.186
|
2.782
|
3.246
|
5.587
|
0.685
|
1.725
|
1.267
|
1.702
|
1.849
|
SOLUCIÓN. Calculamos los valores min = 0.023 y max =
8.223. Resultando ser el rango o recorrido igual a 8.2. El valor promedio es de
2.3. A continuación ordenamos los valores de manera ascendente y construimos el
histograma de frecuencias relativas con seis clases cada una de longitud 1.5.
(esto es debido a que 8.2 / 6 = 1.3)
k
|
Clase
|
FO
absoluta
|
FO
relativa
|
1
|
0.0
- 1.15
|
21
|
0.42
|
2
|
1.15
- 3.0
|
15
|
0.30
|
3
|
3.0
- 4.5
|
8
|
0.16
|
4
|
4.5
- 6.0
|
3
|
0.06
|
5
|
6.0
- 7.5
|
1
|
0.02
|
6
|
7.5
- 9.0
|
2
|
0.04
|
Re
– agrupamos las clases de modo que la FO sea de al menos 5
k
|
Clase
|
FO
absoluta
|
FO
relativa
|
1
|
0.0
- 1.15
|
21
|
0.42
|
2
|
1.15
- 3.0
|
15
|
0.30
|
3
|
3.0
- 4.5
|
8
|
0.16
|
4
|
4.5
- 9.0
|
6
|
0.12
|
Como
nuestra hipótesis nula es que los datos se ajustan a la función de probabilidad
exponencial negativa, emplearemos tal función para calcular mediante
integración el porcentaje de probabilidad esperado para cada subintervalo. Ya
vimos que el valor promedio es de 2.3, sin embargo para fines prácticos lo
consideraremos como 2.0. El cálculo de la integral para la primer clase es:
k
|
Clase
|
FO
relativa
|
FE
teórica
|
(FO-FE)2FE
|
1
|
0.0
- 1.5
|
0.42
|
0.528
|
0.022
|
2
|
1.5
- 3.0
|
0.30
|
0.249
|
0.010
|
3
|
3.0
- 4.5
|
0.16
|
0.118
|
0.015
|
4
|
4.5
- 9.0
|
0.12
|
0.105
|
0.002
|
Entonces
se tiene el valor
Ahora
compararemos este valor calculado contra el valor tabulado de la distribución
Ji – cuadrada con un nivel de significancia alpha de 5% y el número de grados
de libertad
V = (k –1) – 1 = (4 –1) –1 = 2. (Obsérvese que se estimó el
parámetro promedio). Entonces
Como
vemos el valor calculado es menor que el valor tabulado, por tanto la
conclusión es que no se puede rechazar la hipótesis nula de que la muestra
proviene de una distribución exponencial con media 2.0.
EJEMPLO:
Considérese que las diez observaciones siguientes
son una muestra aleatoria de una distribución continua. Probar la hipótesis de
que esos datos provienen de una distribución exponencial con promedio 2, en el
nivel de significación 0.05.
0.406, 2.343, 0.538, 5.088, 5.587, 2.563, 0.023,
3.334, 3.491, 1.267.
Solución. Se
ordenan las diez observaciones ascendentemente y entonces se calcula, para
cada y(i), el valor de F(yi), donde H0 establece
que F (y) es exponencial con teta=2. por tanto,
F(yi) = 1 - e-yi/2
Registraremos los datos ordenados así como los
cálculos en la siguiente:
TABLA
I
|
y(i)
|
F(yi)
|
i/n
|
(i – 1)/n
|
i/n - F(yi)
|
F(yi) - (i – 1)/n
|
1
|
0.023
|
0.0114
|
0.1
|
0.0
|
0.0886
|
0.0114
|
2
|
0.406
|
0.1838
|
0.2
|
0.1
|
0.0162
|
0.0838
|
3
|
0.538
|
0.2359
|
0.3
|
0.2
|
0.0641
|
0.0359
|
4
|
1.267
|
0.4693
|
0.4
|
0.3
|
-0.0693
|
0.1693
|
5
|
2.343
|
0.6901
|
0.5
|
0.4
|
-0.19801
|
0.2901
|
6
|
2.563
|
0.7224
|
0.6
|
0.5
|
-0.1224
|
0.2224
|
7
|
3.334
|
0.8112
|
0.7
|
0.6
|
-0.1112
|
0.2112
|
8
|
3.491
|
0.8254
|
0.8
|
0.7
|
-0.0254
|
0.1254
|
9
|
5.088
|
0.9214
|
0.9
|
0.8
|
-0.0214
|
0.1214
|
10
|
5.587
|
0.9388
|
0.10
|
0.9
|
0.0612
|
0.0388
|
D+ es el valor máximo en la columna 6 y D- el
máximo en la columna 7. Entonces D + = 0.0886 y D – =
0.2901, lo cual da D = 0.2901. Para determinar el valor
crítico a partir de la tabla K - S, se necesita calcular:
En el nivel de significación alfa = 0.05, el valor de D calculado
es menor que el valor del valor de D modificado. Por lo tanto,
no se rechaza la hipótesis nula.
FUENTES DE INFORMACION