sábado, 4 de junio de 2016

¿Qué significa realmente un p-valor del 0.05?


Misuse of the P value — a common test for judging the strength of scientific evidence — is contributing to the number of research findings that cannot be reproduced, the American Statistical Association (ASA) warns in a statement released today1. The group has taken the unusual step of issuing principles to guide use of the P value, which it says cannot determine whether a hypothesis is true or whether results are important.
This is the first time that the 177-year-old ASA has made explicit recommendations on such a foundational matter in statistics, says executive director Ron Wasserstein. The society’s members had become increasingly concerned that the P value was being misapplied in ways that cast doubt on statistics generally, he adds.
In its statement, the ASA advises researchers to avoid drawing scientific conclusions or making policy decisions based on P values alone. Researchers should describe not only the data analyses that produced statistically significant results, the society says, but all statistical tests and choices made in calculations. Otherwise, results may seem falsely robust.
Véronique Kiermer, executive editor of the Public Library of Science journals, says that the ASA’s statement lends weight and visibility to longstanding concerns over undue reliance on the P value. “It is also very important in that it shows statisticians, as a profession, engaging with the problems in the literature outside of their field,” she adds.

Weighing the evidence

P values are commonly used to test (and dismiss) a ‘null hypothesis’, which generally states that there is no difference between two groups, or that there is no correlation between a pair of characteristics. The smaller the P value, the less likely an observed set of values would occur by chance — assuming that the null hypothesis is true. A P value of 0.05 or less is generally taken to mean that a finding is statistically significant and warrants publication. But that is not necessarily true, the ASA statement notes.
P value of 0.05 does not mean that there is a 95% chance that a given hypothesis is correct. Instead, it signifies that if the null hypothesis is true, and all other assumptions made are valid, there is a 5% chance of obtaining a result at least as extreme as the one observed. And a P value cannot indicate the importance of a finding; for instance, a drug can have a statistically significant effect on patients’ blood glucose levels without having a therapeutic effect.
Giovanni Parmigiani, a biostatistician at the Dana Farber Cancer Institute in Boston, Massachusetts, says that misunderstandings about what information a P value provides often crop up in textbooks and practice manuals. A course correction is long overdue, he adds. “Surely if this happened twenty years ago, biomedical research could be in a better place now.”

Frustration abounds

Criticism of the P value is nothing new. In 2011, researchers trying to raise awareness about false positives gamed an analysis to reach a statistically significant finding: that listening to music by the Beatles makes undergraduates younger2. More controversially, in 2015, a set of documentary filmmakers published conclusions from a purposely shoddy clinical trial — supported by a robust Pvalue — to show that eating chocolate helps people to lose weight. (The article has since been retracted.)
But Simine Vazire, a psychologist at the University of California, Davis, and editor of the journal Social Psychological and Personality Science, thinks that the ASA statement could help to convince authors to disclose all of the statistical analyses that they run. “To the extent that people might be sceptical, it helps to have statisticians saying, ‘No, you can't interpret Pvalues without this information,” she says.
More drastic steps, such as the ban on publishing papers that contain Pvalues instituted by at least one journal, could be counter-productive, says Andrew Vickers, a biostatistician at Memorial Sloan Kettering Cancer Center in New York City. He compares attempts to bar the use of P values to addressing the risk of automobile accidents by warning people not to drive — a message that many in the target audience would probably ignore. Instead, Vickers says that researchers should be instructed to “treat statistics as a science, and not a recipe”.
But a better understanding of the P value will not take away the human impulse to use statistics to create an impossible level of confidence, warns Andrew Gelman, a statistician at Columbia University in New York City.
“People want something that they can't really get,” he says. “They want certainty.”
Artículo original: http://www.nature.com/news/statisticians-issue-warning-over-misuse-of-p-values-1.19503

Las mil y una distancias.

Quiero ir de Bilbao a Pamplona en coche, así que abro Google Maps para recordar cuántos kilómetros debo recorrer…

Distintas rutas de Bilbao a Pamplona (Google Maps)
Distintas rutas de Bilbao a Pamplona (Google Maps)

¡Vaya! El servidor ofrece tres rutas alternativas por carretera, una de 155 km, otra de 161 km y la última de 170 km. Además, ‘a vuelo de pájaro’ –en línea recta sobre el mapa–, la distancia es de 115 km. Entonces, ¿cuál es realmente la distancia entre Bilbao y Pamplona?
Las cuatro: en cada caso, lo que estamos haciendo es elegir el ‘camino más corto’ entre Bilbao y Pamplona, cuando exigimos ir por una carretera concreta.
En matemáticas, una distancia –o métrica– es una función que asigna a cada par de puntos a y b en un conjunto un número no negativo cumpliendo ciertas propiedades adicionales bastante razonables e intuitivas: la distancia entre a y b es nula si y sólo si los puntos son iguales, cumple la propiedad simétrica (la distancia entre a y b es la misma que entre b y a) y verifica la desigualdad triangular (si tenemos tres puntos, a, bc, la distancia entre a y c es menor o igual que la suma de las distancias entre y b y entre b y c).
¿Cuál es la distancia más corta entre dos puntos? Depende; hay muchas maneras de definir métricas sobre un conjunto (ver, por ejemplo [1]). En el caso presentado al principio, la elección de la carretera entre Bilbao y Pamplona puede reducir o aumentar el kilometraje; aunque siempre hemos oído que ‘la línea recta es la distancia más corta’, esta afirmación es matizable, dependiendo de la situación en la que nos encontremos. Veamos otro ejemplo para entender mejor esta afirmación.
Imaginemos una ciudad como Manhattan, en la que las calles se cortan en ángulo recto formando una cuadrícula perfecta. John quiere a ir a visitar a Jenny que vive 6 calles al norte y 6 al este respecto a su casa; como no tiene dinero, John debe realizar el trayecto a pie. ¿Cuál es el camino más corto para llegar a casa de su amiga? Suponiendo que todas las cuadrículas miden lo mismo, los tres trayectos marcados en la imagen 2 son igual de cortos –y son, de hecho, los más cortos–. La longitud del trayecto marcado en rojo es lo que en matemáticas se llama la distancia de Manhattan entre los puntos que representan las casas de John y de Jenny.

distancia de Manhattan
Situación de las casas de John y Jenny.

Si lo pensamos en coordenadas, y los dos puntos son a=(a1,a2b=(b1,b2), la distancia de Manhattan entre a=(a1,a2) y b=(b1,b2) es |a1-b1|+|a2-b2|.
En este caso, la distancia de Manhattan entre las casas de John y Jenny es de 12 unidades; es el camino más corto entre esos dos puntos, aunque ese recorrido mínimo puede realizarse por caminos alternativos –por ejemplo, el verde o el azul en la imagen 2–. Si medimos la distancia en línea recta –la distancia usual entre dos puntos– entre las casas de los dos amigos, el teorema de Pitágoras dice que es de 6 ~ 8,48… y este número es menor que 12. En efecto, lo es, pero John no puede realizar a pie eserecorrido ideal
Autora: Marta Macho Stadler

El gran catálogo de los objetos matemáticos.

Un equipo formado por más de 80 expertos de distintos países, en concreto doce, ha creado un mapa online de objetos matemáticos para facilitar el rastreo de los objetos de esta ciencia. Su nombre es base de datos de formas modulares y funciones L o LMFDB (por sus siglas en inglés) y contiene información acerca de más de 20 millones de objetos y las relaciones entre ellos.

Si quieres saber más, haz click en el siguiente enlace para leer el artículo completo:
http://www.agenciasinc.es/Noticias/El-gran-catalogo-de-los-objetos-matematicos

Teoría de grafos y trucos de "magia" con dados.

Es archiconocido en un dado que los puntos de las caras opuestas, siempre suman 7. Así, la cara opuesta del 6 es el 1, la del 5 es el 2 y la del 4 es el 3.

Pero quizás no es tan conocida la propiedad del dado que os traigo hoy, y eso es precisamente lo que se puede aprovechar para poder utilizarla en algún efecto mágico.

Con un dado normal, realizamos lo siguiente:

1) Nos fijamos en un vértice del dado y sumamos los puntos de las tres caras que lo forman. 

2) Ahora rotamos el dado 90º en cualquier dirección. Nos habrá quedado un nuevo vértice en el lugar del anterior.

3) Sumamos los puntos de esas tres caras que forman el nuevo vértice.

4) Pues resulta que la suma inicial y la suma final siempre tienen diferente paridad, independientemente de cómo se haya hecho el giro. Es decir, si la primera suma era par, después de rotar quedará impar y viceversa.


Por poner un ejemplo:

Me fijo en el vértice que forman las caras 2, 3, 6 cuya suma es 11 (IMPAR). Ahora hago una rotación de 90º en el dado y me queda un nuevo vértice cuyas caras son ahora 3, 5, 6, cuya suma es 14 (PAR).

*                       *                      *

Lo interesante de esta propiedad es que, junto con el Principio de Paridad (que ya os expliqué en otra entrada del blog), hace que si se rota el dado un número par de veces, se mantenga la paridad de la suma; y si se rota un número impar de veces, cambie la paridad de la suma de las tres caras.

Es decir, si en un vértice la suma es impar y se hacen 5 rotaciones de 90º en el dado, la suma de las caras del nuevo vértice será par.

Como idea, se podría hacer un pequeño efecto de magia de la siguiente forma:
1) Decimos a un espectador que tire el dado. 
2) Nosotros nos fijamos en un vértice en concreto y sumamos en secreto las tres caras que lo forman (supongamos que dicha suma es par). En este momento nos giramos para no ver. 
3) Decimos al espectador que realice, por ejemplo, 5 rotaciones de 90º en el dado. 
4) Sin volver todavía a mirar, le pedimos al espectador que decida si rotar una vez más el dado o que lo deje cómo está, pero que no nos diga nada.
5) Al volvernos, podemos saber perfectamente si ha decidido rotar el dado una última vez dependiendo de si la suma de las caras en el vértice en el que nos fijamos es par o impar respectivamente.
6) Para potenciar el impacto mágico, se puede repetir varias veces con diferente número de rotaciones. 
Lo anterior no pretende, en absoluto, ser un efecto de magia en sí mismo, sino una pequeña idea para fomentar vuestra imaginación y poder aplicar esta sencilla y desconocida propiedad de los dados. Así que, ¡al ataque!


EXPLICACIÓN MATEMÁTICA

Creo que la mejor manera de entender la propiedad anterior es utilizando laTeoría de grafos. Un grafo no es más que una representación gràfica de una situación.

Aquí os dejo el grafo que representa un dado, donde cada nodo representa un vértice del dado, cada línea es una arista y el número que aparece en cada nodo representa la suma de las tres caras que forman ese vértice:


Grafo que representa un dado

Pues bien, pensando un poco deducimos que si elegimos un vértice, hacer cualquier giro de 90º en el dado representa ir a un vértice de los tres que estan unidos por una línea (arista). De esta manera vemos claramente en el grafo que si elegimos cualquier nodo, los otros tres que estan unidos con él son de paridad diferente. Y ya está.

Creo que es una demostración sencilla y elegante de la propiedad que os he comentado en este post.

¿Causalidad o correlación?

Las palabras causalidad y correlación se utilizan con gran frecuencia en el campo de la analítica pero, ¿sabes realmente cuál es la diferencia entre ellas?
Tengamos en cuenta el siguiente ejemplo: X – Having Kids => Y – Maturity level
La hipótesis es: ¿Es la gente más madura después de tener hijos? ¿Tener hijos es una forma de alcanzar mayores niveles de madurez?
¿Eres capaz de identificar si existe una relación de causalidad en el ejemplo anterior?

Si quieres saber la respuesta, así como algunos aspectos clave acerca de la diferencia entre correlación y causalidad, haz click en el siguiente enlace:
http://www.analyticsvidhya.com/blog/2015/06/establish-causality-events/?utm_content=bufferd8c83&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

El ingenio matemático contra las loterías

La banca siempre gana es la máxima de todo juego de azar que implique una apuesta de dinero. Sin embargo, ¿es posible romper esta máxima? A lo largo de la historia, sólo algunos se las han ingeniado para romperla. Es el caso de Eddie Triptonuno de los vigilantes de seguridad de de la US Multi-State Lottery Association, Mohan Srivastra, un profesor de matemáticas experto en estadística y del autodenominado sindicato autraliano. 

Si quieres saber qué ingenioso "truco" llevaron a cabo para salirse con la suya, haz click en el siguiente enlace:
http://tecnologia.elpais.com/tecnologia/2016/05/18/actualidad/1463580180_383064.html?id_externo_rsoc=TW_CC

Matemáticos predicen quién sera el ganador de la Eurocopa 2016

Un grupo de matemáticos de la Universidad de Economía de Innsbruck ha creado un modelo para predecir quién será el ganador de la Eurocopa 2016 inspirándose en en los estudios previos de Leiner y Zeileis, que predijeron correctamente el ganador del Mundial 2010 y la Eurocopa 2012. Dicho modelo se basa en el resultado de la suma de las probabilidades que tiene cada equipo de ganar, para cuyo cálculo se utilizan los márgenes de ganancias y el promedio de la regresión logística.

¿Quieres saber quién será el ganador de la Eurocopa 2016? Si es así, ¿a qué esperas para hacer click en el siguiente enlace?
http://www.elmundo.es/deportes/2016/06/02/574ff63a268e3e65508b461f.html

viernes, 3 de junio de 2016

Network of Thrones

Es bien sabido que los personajes de la famosa saga Juego de Tronos duran menos que un caramelo en el patio de un colegio y una de las grandes incógnitas aún sin despejar es quién es realmente el verdadero protagonista. Para responder a esta pregunta y, a las puertas del estreno de la sexta temporada, un grupo de matemáticos de Minnesota aplicó las redes neuronales a la historia, teniendo en cuenta las relaciones de los distintos personajes. ¿Quieres saber quién es el verdadero protagonista? Haz click en el siguiente enlace:


Artículo en español de EL PERIÓDICO:

http://www.elperiodico.com/es/noticias/extra/protagonista-principal-juego-tronos-5018948

Artículo en inglés de la revista Quartz:

http://qz.com/650796/mathematicians-mapped- out-every- game-of- thrones-relationship- to-find-the-main- character/

La ilusión de la mayoría.

La ilusión de la mayoría consiste en un fenómeno que provoca que la mayoría de un entorno perciba como común un comportamiento que, en realidad, es extraño. Este artículo nos explica detalladamente en qué consiste dicho fenómeno y por qué no podemos fiarnos de lo que dicen los "influencers" de nuestra red a través de las redes sociales.

jueves, 2 de junio de 2016

Lo que se sabe de ti gracias al Big Data.

En la actualidad, la gran mayoría de la información se gestiona a través de Internet: hacemos búsquedas sobre aquello que queremos saber, compras, transacciones, vemos series y/o películas, entre otras infinidad de utilidades. La principal herramienta que utilizamos para conectarnos a Internet es el smartphone o la tablet. Es por esto que no sorprende que aproximadamente un 75% de la población mundial tenga uno de estos dispositivos. Sin embargo, ¿somos conscientes de todo lo que estamos compartiendo a través de Internet y lo que ello conlleva? ¿Te has preguntado alguna vez cuánto se sabe de ti a través del "rastro" que dejas en Internet?

Si quieres averiguarlo, haz click en el siguiente link:
http://www.forbes.es/actualizacion/1014/lo-que-se-sabe-de-ti-gracias-al-big-data

R or Python?

¿Cuál debería ser la herramienta fundamental de un Data Scientist: R o Python? La respuesta es sencilla: ambas. Pese a que cada uno de ellos tiene su propia sintaxis, sus propias herramientas, librerías, etc, ambos son bastante similares. El uso de una de estas herramientas no debe ser excluyente de la otra, esto es, un verdadero Data Scientist no debe elegir necesariamente una de ellas, sino aprender a utilizar ambas y sacar partido a las ventajas de cada una para optimizar los recursos de los que dispone.

¿Cuáles son las ventajas y desventajas de cada uno? Si quieres saber la respuesta, pincha en el siguiente enlace:
http://www.kdnuggets.com/2016/03/r-python-learning-both-datacamp.html?utm_content=buffer7e0c2&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

Pred Crime: La app que predice el crimen.

La aplicación, creada por un grupo de profesores e investigadores de Matemáticas de la Universidad Jaume I de Castellón, utiliza un algoritmo que se basa en variables demográficas y económicas, entre otras. De este modo, una vez analizadas las distintas variables, traslada dicha información a mapas y delimita las zonas en las que existe una alta probabilidad de que se produzca un delito y cuándo es más probable que éste tenga lugar.

Pincha el siguiente enlace para leer el artículo completo en El confidencial:
http://www.elconfidencial.com/espana/2016-04-03/matematicos-de-la-universidad-jaume-i-crean-una-aplicacion-que-predice-el-crimen_1177382/

A Song of Ice and Data

Es bien sabido que Juego de Tronos es una de las series que está de moda en los últimos tiempos y que más expectación atrae. Este afán de los espectadores por descubrir los entresijos de la serie, ha llevado a un grupo de estudiantes de la Universidad de Munich a crear un algoritmo llamado: A song of Ice and Data. Dicho algoritmo, utilizando datos estadísticos obtenidos principalmente de la enciclopedia online A Wiki of Ice and Fire, determina cuál es la probabilidad de morir que tiene cada uno de los personajes de esta saga.

Pincha el siguiente enlace para leer el artículo en español:

EL MUNDO
http://www.elmundo.es/television/2016/04/22/571a792bca4741fd288b45dd.html

Pincha el siguiente enlace para leer el artículo en inglés:

QUARTZ
http://qz.com/665991/who-will-live-and-who-will-die-on-game-of-thrones-according-to-statistics/