No importa el campo, si un investigador está recolectando datos de cualquier tipo, en algún momento tendrá que analizarlo. Y lo más probable es que recurra a las estadísticas para descubrir qué pueden decirle los datos. La conversación
Una amplia gama de disciplinas, como las ciencias sociales, el marketing, la fabricación, la industria farmacéutica y la física, intentan hacer inferencias sobre una gran población de individuos o cosas basándose en una muestra relativamente pequeña. Pero muchos investigadores están usando técnicas estadísticas anticuadas que tienen una probabilidad relativamente alta de conducirlas mal. Y eso es un problema si significa que no comprendemos qué tan bien funciona un fármaco nuevo potencial, o los efectos de algún tratamiento en el suministro de agua de una ciudad, por ejemplo.
Como un estadístico que ha estado siguiendo los avances en el campo, sé que hay métodos muy mejorados para comparar grupos de personas o cosas, así como la comprensión de la asociación entre dos o más variables. Estos métodos modernos y robustos ofrecen la oportunidad de lograr una comprensión de los datos más precisa y matizada. El problema es que estas mejores técnicas han sido lentas para avanzar en la comunidad científica en general.
Cuando los métodos clásicos no lo cortan
Imagine, por ejemplo, que los investigadores reúnen a un grupo de 40 personas con colesterol alto. La mitad toma el medicamento A, mientras que la otra mitad toma un placebo. Los investigadores descubren que aquellos en el primer grupo tienen una disminución media mayor en sus niveles de colesterol. ¿Pero qué tan bien los resultados de solo 20 personas reflejan lo que sucedería si miles de adultos tomaran el medicamento A?O en una escala más cósmica, considere al astrónomo Edwin Hubble, que midió cuán lejos están las 24 galaxias de la Tierra y qué tan rápido se están alejando de nosotros. Los datos de ese pequeño grupo le permiten trazar una ecuación que predice la llamada velocidad de recesión de una galaxia dada su distancia. Pero, ¿qué tan bien reflejan los resultados del Hubble la asociación entre todos los millones de galaxias en el universo si se midieran?
En estas y muchas otras situaciones, los investigadores usan tamaños de muestra pequeños simplemente por el costo y la dificultad general de obtener datos. Los métodos clásicos, enseñados y utilizados rutinariamente, intentan abordar estos problemas haciendo dos suposiciones clave.
Primero, los científicos suponen que hay una ecuación particular para cada situación individual que modelará con precisión las probabilidades asociadas con los posibles resultados. La ecuación más comúnmente utilizada corresponde a lo que se llama una distribución normal. El gráfico resultante de los datos tiene forma de campana y es simétrico alrededor de algún valor central.En segundo lugar, los investigadores suponen que la cantidad de variación es la misma para ambos grupos que están comparando. Por ejemplo, en el estudio de drogas, los niveles de colesterol variarán entre los millones de personas que podrían tomar el medicamento. Las técnicas clásicas suponen que la cantidad de variación entre los posibles receptores de drogas es exactamente la misma que la cantidad de variación en el grupo placebo.
Una suposición similar se hace al estudiar asociaciones. Considere, por ejemplo, un estudio que examine la relación entre la edad y alguna medida de depresión. Entre los millones de personas de 20 años, habrá una variación entre sus puntajes de depresión. Lo mismo es cierto a los 30, 80 o cualquier edad en el medio. Los métodos clásicos suponen que la cantidad de variación es la misma para cualquier dos edades que podamos elegir.
Todos estos supuestos permiten a los investigadores utilizar métodos que son teórica y computacionalmente convenientes. Desafortunadamente, es posible que no arrojen resultados razonablemente precisos.
Mientras escribía mi libro "Introducción a la estimación robusta y las pruebas de hipótesis", analicé cientos de artículos de revistas y descubrí que estos métodos pueden no ser confiables. De hecho, las preocupaciones sobre los resultados teóricos y empíricos datan de hace dos siglos.
Cuando los grupos que los investigadores están comparando no difieren de ninguna manera, o no hay asociación, los métodos clásicos funcionan bien. Pero si los grupos difieren o existe una asociación, que ciertamente no es poco común, los métodos clásicos pueden fallar. Las diferencias y asociaciones importantes pueden pasarse por alto y pueden derivarse inferencias altamente engañosas.Incluso el reconocimiento de estos problemas puede empeorar las cosas si los investigadores tratan de evitar las limitaciones de los métodos estadísticos clásicos utilizando métodos ineficaces o técnicamente inválidos. Transformar los datos o descartar valores atípicos, cualquier punto de datos extremos que estén lejos de los otros valores de datos, estas estrategias no necesariamente solucionan los problemas subyacentes.
Un nuevo camino
Los recientes avances importantes en las estadísticas proporcionan métodos sustancialmente mejores para hacer frente a estas deficiencias. En los últimos 30 años, los estadísticos han solidificado la base matemática de estos nuevos métodos. Llamamos a las técnicas resultantes robustas, porque continúan funcionando bien en situaciones donde los métodos convencionales se caen.
Los métodos convencionales proporcionan soluciones exactas cuando se cumplen todos los supuestos mencionados anteriormente. Pero incluso las ligeras violaciones de estas suposiciones pueden ser devastadoras.
Los nuevos métodos robustos, por otro lado, brindan soluciones aproximadas cuando estas suposiciones son verdaderas, haciéndolas casi tan precisas como los métodos convencionales. Pero es cuando la situación cambia y las suposiciones no son ciertas que los nuevos métodos robustos brillan: siguen brindando soluciones razonablemente precisas para una amplia gama de situaciones que causan problemas de las formas tradicionales.Una preocupación específica es la situación que ocurre comúnmente donde los gráficos de los datos no son simétricos. En un estudio que se ocupa de la depresión entre adultos mayores, por ejemplo, un gráfico de los datos es muy asimétrico, más o menos porque la mayoría de los adultos no están demasiado deprimidos.
Los valores atípicos son otro desafío común. Los métodos convencionales suponen que los valores atípicos no tienen importancia práctica. Pero, por supuesto, eso no siempre es cierto, por lo que los valores atípicos pueden ser desastrosos cuando se usan métodos convencionales. Los métodos robustos ofrecen una forma técnicamente sólida, aunque no obvia, basada en el entrenamiento estándar, para tratar este problema que proporciona una interpretación mucho más precisa de los datos.
Otro avance importante ha sido la creación de métodos bootstrap, que son técnicas inferenciales más flexibles. La combinación de métodos robustos y bootstrap ha llevado a una amplia gama de técnicas nuevas y mejoradas para comprender los datos.
Estas técnicas modernas no solo aumentan la probabilidad de detectar diferencias y asociaciones importantes, sino que también brindan nuevas perspectivas que pueden profundizar nuestra comprensión de lo que los datos intentan decirnos. No hay una perspectiva única que siempre proporcione un resumen preciso de los datos. Las perspectivas múltiples pueden ser cruciales.
En algunas situaciones, los métodos modernos ofrecen poca o ninguna mejora sobre las técnicas clásicas. Pero hay una amplia evidencia que ilustra que pueden alterar sustancialmente nuestra comprensión de los datos.
About the author
No hay comentarios:
Publicar un comentario