55 Respuestas a Dudas Típicas  de Estadística

55 Respuestas a Dudas Típicas de Estadística

(Parte 1 de 5)

w.FreeLibros.me w.FreeLibros.me w.FreeLibros.me w.FreeLibros.me

Respuestas a dudas típicas de ESTADÍSTICA w.FreeLibros.me w.FreeLibros.me w.FreeLibros.me

Roberto Behar Gutiérrez Pere Grima Cintas

Respuestas a dudas típicas de ESTADÍSTICA w.FreeLibros.me

©Roberto Behar Gutiérrez,Pere Grima Cintas,2004 Reservados todos los derechos.

«No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático,ni la transmisión de ninguna forma o por cualquier medio,ya sea electrónico,mecánico por fotocopia,por registro u otros métodos,sin el permiso previo y por escrito de los titulares del Copyright.»

Ediciones Díaz de Santos,S. A. Doña Juana I de Castilla,2. 28027 Madrid España

Internet: http://www.diazdesantos.es/ediciones E-Mail: ediciones@diazdesantos.es

ISBN: 84-7978-643-4 Depósito legal:M. 3.434-2004

Diseño de cubierta:A. CalveteÁngel Calvete Fotocomposición: Fer Impresión: Edigrafos Encuadernación: Rústica-Hilo

Impreso en España w.FreeLibros.me

Roberto Behar Gutiérrezes Licenciado en Educación en la especialidad de Matemáticas,por la Universidad Santiago de Cali,y es Estadístico por la Universidad del Valle (Cali,Colombia). Obtuvo el grado de doctor en la Universidad Politécnica de Cataluña. Es profesor de la carrera de estadística de la Universidad del Valle desde su fundación en 1978,donde también ha sido director del departamento de Producción e Investigación de Operaciones,director de la carrera de estadística,y director del Master en Ingeniería Industrial y de Sistemas.

Ha sido asesor estadístico para diversas instituciones colombianas en estudios sobre medio ambiente y desarrollo social. También ha asesorado a empresas sobre temas relacionados con el control estadístico de la calidad y estadística industrial. Entre sus publicaciones se encuentra el libro de texto que escribió junto a Mario Yepes:“Estadística:Un enfoque descriptivo”. Ed. Feriva,1995. Ha escrito también numerosos artículos sobre técnicas estadísticas en revistas especializadas,algunos de los cuales tratan sobre su enseñanza,como el publicado con Mario Miguel Ojeda en el Newsletter (1997)delInternational Statististical Institute. (ISI):“A Reformulation of the problem of Statistical Education:A learning Perspective”o el que escribió con Pere Grima en la revista “Estadística Española”(2001):“Mil y una dimensiones del aprendizaje de la estadística”. También ha realizado numerosas conferencias sobre el uso de la estadística y sobre su enseñanza y aprendizaje,tema que es una de sus pasiones.

Pere Grima Cintases doctor ingeniero industrial y profesor de la Universidad Politécnica de Cataluña,donde también es coordinador académico del Master en Gestión de la Calidad. Su especialidad son las técnicas estadísticas para el control y la mejora de la calidad,tema sobre el que ha asesorado a numerosas empresas e instituciones. También se ha ocupado de temas relacionados con la gestión de la calidad y en el año 2000 fue evaluador de la European Foundation for Quality Management (EFQM) para el premio europeo a la calidad que otorga esta institución. En el periodo en que ha estado trabajando en este libro, sus actividades de asesoramiento a empresas se han centrado mayoritariamente en la implantación de programas de mejora Seis Sigma.

Junto con sus compañeros Albert Prat,Xavier Tort-Martorell y Lourdes Pozueta escribió el libro “Métodos estadísticos. Control y mejora de la Calidad”,Ediciones UPC,del que ya se han realizado varias ediciones y que ha sido publicado en Iberoamérica por Editorial Alfaomega. Con Xavier Tort-Martorell escribió “Técnicas para la Gestión de la Calidad”, editado por Díaz de Santos en 1995. También le gusta dedicar parte de su tiempo a trabajar en temas relacionados con la divulgación de la estadística.

w.FreeLibros.me w.FreeLibros.me w.FreeLibros.me

IX Presentación

Muchos de los que alguna vez hemos sido estudiantes de un curso de Estadística, recordamos momentos en los que intentábamos entender,no siempre con éxito,las razones por las cuales había que hacer las cosas de una determinada manera. ¿Por qué dividir por n-1 al calcular la desviación estándar? ¿Por qué no dividir por el número total de datos? El tiempo disponible en los cursos no permite explicarlo todo y en ocasiones el profesor,en su intento por dar una explicación al estudiante que pregunta,responde usando términos como “grados de libertad”o “estimador insesgado”,lo cual puede generar más dudas de las que aclara.

Por otra parte,a través de nuestra experiencia ayudando a profesionales de la Medicina, la Administración o la Ingeniería en el uso de métodos estadísticos,hemos comprobado que los conceptos o las técnicas con que se trabaja no siempre están del todo claras. ¿Cómo hay que interpretar el p-valor que da el listado del ordenador? ¿Es lo mismo diferencia significativa que diferencia importante? Esta falta de seguridad en su manejo hace que muchas veces se evite hacer uso de todas las posibilidades que brinda la estadística,con lo que se pierde la oportunidad de obtener una información que puede resultar muy útil para la toma de decisiones.

También en un ámbito no estrictamente profesional existen muchas dudas “populares” en torno a la Estadística:¿cómo es que con una muestra de 2.0 personas puede conocerse razonablemente bien la opinión de un país de 40 millones de habitantes?,o lo que es todavía más sorprendente,¿cómo es que esas 2.0 personas también serían suficientes para una población de 100 millones? Y ligada con estas,si la Estadística es tan potente,¿por qué cuesta tanto acertar en los sondeos electorales?

Este texto pretende dar respuesta a muchas de estas preguntas y nuestra intención es que sea útil tanto a los estudiantes de los cursos de estadística que se imparten en la universidad,como a los profesionales que están interesados en refrescar sus ideas o aclarar dudas concretas,y también a todas aquellas personas interesadas en esta disciplina que quieran resolver algunas de sus dudas.

Sin ser exhaustivos,pues siempre es posible aumentar la lista con nuevas preguntas, hemos tratado de cubrir un amplio espectro,tratando dudas en estadística descriptiva, distribuciones de probabilidad,estimación,contraste de hipótesis,comparación de poblaciones,correlación y regresión,diseño de experimentos,estudios de capacidad y control de procesos y un apartado para dudas varias,como las relacionadas con los grados de libertad y el teorema central del límite,entre otras.

Muchas preguntas tienen un carácter general e introductorio y son “aptas para todos los públicos”,pero otras tratan sobre temas específicos en el contexto de las ecuaciones de regresión,el diseño de experimentos o el control estadístico de procesos. En este último caso se requiere un cierto nivel de conocimientos sobre el tema,aunque si la pregunta despierta interés,seguramente ya se sabe lo suficiente para entender la respuesta. En todos los casos se ha intentado usar un lenguaje coloquial,recurriendo a la intuición y apoyándose en la metáfora,pero procurando que no haya pérdida en el rigor.

w.FreeLibros.me

Se ha intentado también que cada respuesta sea lo más autocontenida posible,es decir, lo suficientemente completa,para que no requiera de otras para su adecuada comprensión. De todas maneras,en cada uno de los temas que se tratan,se han colocado las dudas y sus respuestas en el orden que consideramos más efectivo,de tal manera que un lector que desee leer todas las preguntas de un apartado en forma secuencial vaya ganando elementos para comprender mejor la siguiente.

Dejando claro que cualquier falta en la virtud de este trabajo es de exclusiva responsabilidad de los autores,deseamos poner de manifiesto nuestro agradecimiento a todos nuestros compañeros en las tareas docentes,seguramente la mejor fuente de información que hemos tenido. Lluís Marco,de la Universitat Politècnica de Catalunya y Guillermo de León,de la Universidad Veracruzana nos sugirieron algunas de las preguntas que se incorporan y también ideas y posibles enfoques para muchas respuestas, además de leer los originales y sugerir numerosas mejoras. Rafael Antonio Klinger y Eloina Mesa,de la Universidad del Valle,también leyeron los originales y realizaron muchas sugerencias que han mejorado notablemente la claridad de las respuestas.

Deseamos agradecer también a la Agencia Española de Cooperación Internacional (AECI) y a nuestras Universidades,la Universidad del Valle y la Universitat Politècnica de Catalunya,las ayudas y facilidades obtenidas para la realización de este trabajo.

Muy probablemente,no podremos evitar la frustración de algunos de nuestros lectores al buscar en vano alguna duda que no fue tratada aquí,o al no quedar del todo satisfechos con alguna respuesta. Nuestra aspiración es poder recoger todas las sugerencias y apreciaciones que nos permitan realizar un proceso mejora continua de nuestro trabajo,por lo que agradeceremos todos los comentarios y sugerencias que nos hagan llegar a través de la página web:w.55RespuestasEstadistica.com.

Barcelona y Santiago de Cali,Mayo de 2004 w.FreeLibros.me

Acerca de los autoresVII Presentación IX Estadística descriptiva

1.¿Para qué sirve la mediana,si ya tenemos la media aritmética?3 2.¿Tiene alguna aplicación práctica la media geométrica?5

3.¿Por qué en la expresión de la varianza se utiliza el cuadrado de las diferencias en vez de su valor absoluto?7

4.¿Por qué cuando se calcula la varianza de una muestra se divide por n-1 en vez de dividir por n?1

5.¿Cuál es la forma “correcta”de calcular los cuartiles?15

6.¿En cuántos intervalos conviene dividir los datos para construir un histograma? ¿Qué otros aspectos hay que tener en cuenta?17

7.¿Cuándo conviene utilizar boxplotspara analizar o describir datos?21

8.En los boxplotslas anomalías se marcan a partir de ±1,5 veces el rango intercuartílico (IQR) ¿De dónde sale el 1,5?23

9.¿Qué hay que hacer cuando nos encontramos con valores atípicos?25 10.¿Qué es la curtosis (o kurtosis) y para qué sirve?29

Distribuciones de probabilidad

1.¿Cómo se sabe que una variable aleatoria concreta sigue una determinada distribución de probabilidad?35

12.La media de una muestra es un número concreto. ¿Por qué se dice entonces que es una variable aleatoria?39

13.¿Por qué la función densidad de probabilidad de la distribución Normal es la que es?41

14.¿Por qué las probabilidades calculadas a través de la Normal estandarizada coinciden con las buscadas en la distribución de interés?47

15.Yo mido 1,68. ¿Por qué la probabilidad de que una estatura sea 1,68 calculada con la distribución Normal es 0?51

16.¿Existen variables aleatorias que presenten un comportamiento “contrario”a la distribución Normal,siendo los valores más probables los de los extremos?53

17.¿De dónde sale la fórmula de la distribución de Poisson?57

18.¿Cómo se puede ver que la distribución de la varianza muestral está relacionada con la distribución chi-cuadrado?59

XI Índice w.FreeLibros.me

Estimación

20.Sabemos que las características de una muestra (proporción,media,...) varían de una muestra a otra. ¿Por qué entonces creer en los resultados de una muestra,sabiendo que si tomáramos otra esos resultados serían distintos?65

21.¿Qué significa la expresión:“un intervalo de confianza del 95% es 27,5% ± 3,6%”? 67

Contraste de hipótesis

25.¿Qué es el p-valor y cuál es el significado de las otras palabras clave que aparecen en el contraste de hipótesis?81

29.¿Por qué respecto a la hipótesis nula se habla de “no rechazo”y no de “aceptación”? 93

30.¿Es lo mismo diferencia significativa que diferencia importante?95

Comparación de tratamientos

31.¿Cómo elegir la hipótesis alternativa que conviene plantear?9

32.Si la hipótesis alternativa es del tipo “mayor que”o “menor que”,¿cómo se sabe hacia qué lado hay que mirar el área de cola?101

34.¿Por qué para comparar ktratamientos se utiliza la técnica de análisis de la varianza,en vez del ya conocido test de la tde Student,aplicándolo a todas las parejas que se pueden formar con ktratamientos?105

Correlación y Regresión

35.¿Por qué cuando se ajusta una nube de puntos a una ecuación de regresión se utiliza siempre el criterio de minimizar la suma de los cuadrados de los residuos,y no otros como minimizar la suma de su valor absoluto?109

36.Si los coeficientes de una ecuación de regresión son unos números concretos, ¿por qué se dice que son variables aleatorias?1

Respuestas a dudas típicas de ESTADÍSTICA55XII w.FreeLibros.me

38.¿Por qué cuando se comparan ecuaciones de regresión con distinto número de variables regresoras no se utiliza R2sino el llamado R2ajustado?119

40.¿Por qué del conjunto de variables candidatas a entrar en un modelo de regresión no necesariamente se seleccionan las que están más correlacionadas con la variable dependiente Y?131

Diseño de experimentos

41.¿Por qué no es una buena estrategia ir moviendo las variables una a una cuando se trata de estudiar experimentalmente cómo estas afectan a una respuesta?135

42.¿Cómo es posible estudiar por separado el efecto de cada una de las variables que afectan a una respuesta si,tal y como se hace en los diseños factoriales,se mueven todas a la vez?137

45.En los diseños factoriales,¿cómo se puede escribir una ecuación para la respuesta a partir de los efectos?151

46.¿Qué es un diseño bloqueado? ¿Por qué en estos diseños no se tienen en cuenta las interacciones entre los factores de bloqueo y el resto de factores? ¿Qué ocurre si esas interacciones existen?155

47.¿Por qué es razonable suponer no significativas las interacciones de 3 o más factores? 159

Estudios de capacidad y control estadístico de procesos

51.En los gráficos de control,¿la línea central debe ser el valor objetivo o el promedio obtenido al hacer el estudio de capacidad?175

Varios

53.¿Qué significan los llamados “grados de libertad”?181

Índice XIII w.FreeLibros.me

54.¿Debe decirse “Teorema central del límite”o “Teorema del límite central”? 185 5.¿Cuál es la mejor estrategia para ganar la lotería (nacional,primitiva,...)?187

Créditos y referencias

¿Cómo hemos resuelto nuestras dudas?193 Libros y páginas web que se citan197

Respuestas a dudas típicas de ESTADÍSTICA55XIV w.FreeLibros.me

Estadí stica descriptiva w.FreeLibros.me w.FreeLibros.me w.FreeLibros.me

1 ¿Para que sirve la mediana, si ya tenemos la media aritmética?

La media aritmética es una excelente medida de tendencia central. Sus buenas propiedades, junto con el hecho de ser fácil de entender y de calcular, la hacen muy usada y también muy apreciada (a veces demasiado, como cuando se pretende resumir solo en ella toda la información que contienen los datos), pero la mediana tiene unas propiedades de las que carece la media, por lo que es un buen complemento informativo e incluso en algunos casos puede ser una medida más útil. Estas propiedades son:

x Es más robusta que la media frente a la presencia de anomalías. Un ejemplo muy simple: supongamos que nuestros datos son: 2, 5, 6, 7 y 9. La media es 5,6 y la mediana es 6. Si al introducir los datos al ordenador nos equivocamos y en último lugar en vez de 9 introducimos 9, la media pasa a ser 23,8, mientras que la mediana sigue siendo 6.

(Parte 1 de 5)

Comentários