sábado, 4 de junio de 2016

¿Qué significa realmente un p-valor del 0.05?


Misuse of the P value — a common test for judging the strength of scientific evidence — is contributing to the number of research findings that cannot be reproduced, the American Statistical Association (ASA) warns in a statement released today1. The group has taken the unusual step of issuing principles to guide use of the P value, which it says cannot determine whether a hypothesis is true or whether results are important.
This is the first time that the 177-year-old ASA has made explicit recommendations on such a foundational matter in statistics, says executive director Ron Wasserstein. The society’s members had become increasingly concerned that the P value was being misapplied in ways that cast doubt on statistics generally, he adds.
In its statement, the ASA advises researchers to avoid drawing scientific conclusions or making policy decisions based on P values alone. Researchers should describe not only the data analyses that produced statistically significant results, the society says, but all statistical tests and choices made in calculations. Otherwise, results may seem falsely robust.
Véronique Kiermer, executive editor of the Public Library of Science journals, says that the ASA’s statement lends weight and visibility to longstanding concerns over undue reliance on the P value. “It is also very important in that it shows statisticians, as a profession, engaging with the problems in the literature outside of their field,” she adds.

Weighing the evidence

P values are commonly used to test (and dismiss) a ‘null hypothesis’, which generally states that there is no difference between two groups, or that there is no correlation between a pair of characteristics. The smaller the P value, the less likely an observed set of values would occur by chance — assuming that the null hypothesis is true. A P value of 0.05 or less is generally taken to mean that a finding is statistically significant and warrants publication. But that is not necessarily true, the ASA statement notes.
P value of 0.05 does not mean that there is a 95% chance that a given hypothesis is correct. Instead, it signifies that if the null hypothesis is true, and all other assumptions made are valid, there is a 5% chance of obtaining a result at least as extreme as the one observed. And a P value cannot indicate the importance of a finding; for instance, a drug can have a statistically significant effect on patients’ blood glucose levels without having a therapeutic effect.
Giovanni Parmigiani, a biostatistician at the Dana Farber Cancer Institute in Boston, Massachusetts, says that misunderstandings about what information a P value provides often crop up in textbooks and practice manuals. A course correction is long overdue, he adds. “Surely if this happened twenty years ago, biomedical research could be in a better place now.”

Frustration abounds

Criticism of the P value is nothing new. In 2011, researchers trying to raise awareness about false positives gamed an analysis to reach a statistically significant finding: that listening to music by the Beatles makes undergraduates younger2. More controversially, in 2015, a set of documentary filmmakers published conclusions from a purposely shoddy clinical trial — supported by a robust Pvalue — to show that eating chocolate helps people to lose weight. (The article has since been retracted.)
But Simine Vazire, a psychologist at the University of California, Davis, and editor of the journal Social Psychological and Personality Science, thinks that the ASA statement could help to convince authors to disclose all of the statistical analyses that they run. “To the extent that people might be sceptical, it helps to have statisticians saying, ‘No, you can't interpret Pvalues without this information,” she says.
More drastic steps, such as the ban on publishing papers that contain Pvalues instituted by at least one journal, could be counter-productive, says Andrew Vickers, a biostatistician at Memorial Sloan Kettering Cancer Center in New York City. He compares attempts to bar the use of P values to addressing the risk of automobile accidents by warning people not to drive — a message that many in the target audience would probably ignore. Instead, Vickers says that researchers should be instructed to “treat statistics as a science, and not a recipe”.
But a better understanding of the P value will not take away the human impulse to use statistics to create an impossible level of confidence, warns Andrew Gelman, a statistician at Columbia University in New York City.
“People want something that they can't really get,” he says. “They want certainty.”
Artículo original: http://www.nature.com/news/statisticians-issue-warning-over-misuse-of-p-values-1.19503

Las mil y una distancias.

Quiero ir de Bilbao a Pamplona en coche, así que abro Google Maps para recordar cuántos kilómetros debo recorrer…

Distintas rutas de Bilbao a Pamplona (Google Maps)
Distintas rutas de Bilbao a Pamplona (Google Maps)

¡Vaya! El servidor ofrece tres rutas alternativas por carretera, una de 155 km, otra de 161 km y la última de 170 km. Además, ‘a vuelo de pájaro’ –en línea recta sobre el mapa–, la distancia es de 115 km. Entonces, ¿cuál es realmente la distancia entre Bilbao y Pamplona?
Las cuatro: en cada caso, lo que estamos haciendo es elegir el ‘camino más corto’ entre Bilbao y Pamplona, cuando exigimos ir por una carretera concreta.
En matemáticas, una distancia –o métrica– es una función que asigna a cada par de puntos a y b en un conjunto un número no negativo cumpliendo ciertas propiedades adicionales bastante razonables e intuitivas: la distancia entre a y b es nula si y sólo si los puntos son iguales, cumple la propiedad simétrica (la distancia entre a y b es la misma que entre b y a) y verifica la desigualdad triangular (si tenemos tres puntos, a, bc, la distancia entre a y c es menor o igual que la suma de las distancias entre y b y entre b y c).
¿Cuál es la distancia más corta entre dos puntos? Depende; hay muchas maneras de definir métricas sobre un conjunto (ver, por ejemplo [1]). En el caso presentado al principio, la elección de la carretera entre Bilbao y Pamplona puede reducir o aumentar el kilometraje; aunque siempre hemos oído que ‘la línea recta es la distancia más corta’, esta afirmación es matizable, dependiendo de la situación en la que nos encontremos. Veamos otro ejemplo para entender mejor esta afirmación.
Imaginemos una ciudad como Manhattan, en la que las calles se cortan en ángulo recto formando una cuadrícula perfecta. John quiere a ir a visitar a Jenny que vive 6 calles al norte y 6 al este respecto a su casa; como no tiene dinero, John debe realizar el trayecto a pie. ¿Cuál es el camino más corto para llegar a casa de su amiga? Suponiendo que todas las cuadrículas miden lo mismo, los tres trayectos marcados en la imagen 2 son igual de cortos –y son, de hecho, los más cortos–. La longitud del trayecto marcado en rojo es lo que en matemáticas se llama la distancia de Manhattan entre los puntos que representan las casas de John y de Jenny.

distancia de Manhattan
Situación de las casas de John y Jenny.

Si lo pensamos en coordenadas, y los dos puntos son a=(a1,a2b=(b1,b2), la distancia de Manhattan entre a=(a1,a2) y b=(b1,b2) es |a1-b1|+|a2-b2|.
En este caso, la distancia de Manhattan entre las casas de John y Jenny es de 12 unidades; es el camino más corto entre esos dos puntos, aunque ese recorrido mínimo puede realizarse por caminos alternativos –por ejemplo, el verde o el azul en la imagen 2–. Si medimos la distancia en línea recta –la distancia usual entre dos puntos– entre las casas de los dos amigos, el teorema de Pitágoras dice que es de 6 ~ 8,48… y este número es menor que 12. En efecto, lo es, pero John no puede realizar a pie eserecorrido ideal
Autora: Marta Macho Stadler

El gran catálogo de los objetos matemáticos.

Un equipo formado por más de 80 expertos de distintos países, en concreto doce, ha creado un mapa online de objetos matemáticos para facilitar el rastreo de los objetos de esta ciencia. Su nombre es base de datos de formas modulares y funciones L o LMFDB (por sus siglas en inglés) y contiene información acerca de más de 20 millones de objetos y las relaciones entre ellos.

Si quieres saber más, haz click en el siguiente enlace para leer el artículo completo:
http://www.agenciasinc.es/Noticias/El-gran-catalogo-de-los-objetos-matematicos

Teoría de grafos y trucos de "magia" con dados.

Es archiconocido en un dado que los puntos de las caras opuestas, siempre suman 7. Así, la cara opuesta del 6 es el 1, la del 5 es el 2 y la del 4 es el 3.

Pero quizás no es tan conocida la propiedad del dado que os traigo hoy, y eso es precisamente lo que se puede aprovechar para poder utilizarla en algún efecto mágico.

Con un dado normal, realizamos lo siguiente:

1) Nos fijamos en un vértice del dado y sumamos los puntos de las tres caras que lo forman. 

2) Ahora rotamos el dado 90º en cualquier dirección. Nos habrá quedado un nuevo vértice en el lugar del anterior.

3) Sumamos los puntos de esas tres caras que forman el nuevo vértice.

4) Pues resulta que la suma inicial y la suma final siempre tienen diferente paridad, independientemente de cómo se haya hecho el giro. Es decir, si la primera suma era par, después de rotar quedará impar y viceversa.


Por poner un ejemplo:

Me fijo en el vértice que forman las caras 2, 3, 6 cuya suma es 11 (IMPAR). Ahora hago una rotación de 90º en el dado y me queda un nuevo vértice cuyas caras son ahora 3, 5, 6, cuya suma es 14 (PAR).

*                       *                      *

Lo interesante de esta propiedad es que, junto con el Principio de Paridad (que ya os expliqué en otra entrada del blog), hace que si se rota el dado un número par de veces, se mantenga la paridad de la suma; y si se rota un número impar de veces, cambie la paridad de la suma de las tres caras.

Es decir, si en un vértice la suma es impar y se hacen 5 rotaciones de 90º en el dado, la suma de las caras del nuevo vértice será par.

Como idea, se podría hacer un pequeño efecto de magia de la siguiente forma:
1) Decimos a un espectador que tire el dado. 
2) Nosotros nos fijamos en un vértice en concreto y sumamos en secreto las tres caras que lo forman (supongamos que dicha suma es par). En este momento nos giramos para no ver. 
3) Decimos al espectador que realice, por ejemplo, 5 rotaciones de 90º en el dado. 
4) Sin volver todavía a mirar, le pedimos al espectador que decida si rotar una vez más el dado o que lo deje cómo está, pero que no nos diga nada.
5) Al volvernos, podemos saber perfectamente si ha decidido rotar el dado una última vez dependiendo de si la suma de las caras en el vértice en el que nos fijamos es par o impar respectivamente.
6) Para potenciar el impacto mágico, se puede repetir varias veces con diferente número de rotaciones. 
Lo anterior no pretende, en absoluto, ser un efecto de magia en sí mismo, sino una pequeña idea para fomentar vuestra imaginación y poder aplicar esta sencilla y desconocida propiedad de los dados. Así que, ¡al ataque!


EXPLICACIÓN MATEMÁTICA

Creo que la mejor manera de entender la propiedad anterior es utilizando laTeoría de grafos. Un grafo no es más que una representación gràfica de una situación.

Aquí os dejo el grafo que representa un dado, donde cada nodo representa un vértice del dado, cada línea es una arista y el número que aparece en cada nodo representa la suma de las tres caras que forman ese vértice:


Grafo que representa un dado

Pues bien, pensando un poco deducimos que si elegimos un vértice, hacer cualquier giro de 90º en el dado representa ir a un vértice de los tres que estan unidos por una línea (arista). De esta manera vemos claramente en el grafo que si elegimos cualquier nodo, los otros tres que estan unidos con él son de paridad diferente. Y ya está.

Creo que es una demostración sencilla y elegante de la propiedad que os he comentado en este post.

¿Causalidad o correlación?

Las palabras causalidad y correlación se utilizan con gran frecuencia en el campo de la analítica pero, ¿sabes realmente cuál es la diferencia entre ellas?
Tengamos en cuenta el siguiente ejemplo: X – Having Kids => Y – Maturity level
La hipótesis es: ¿Es la gente más madura después de tener hijos? ¿Tener hijos es una forma de alcanzar mayores niveles de madurez?
¿Eres capaz de identificar si existe una relación de causalidad en el ejemplo anterior?

Si quieres saber la respuesta, así como algunos aspectos clave acerca de la diferencia entre correlación y causalidad, haz click en el siguiente enlace:
http://www.analyticsvidhya.com/blog/2015/06/establish-causality-events/?utm_content=bufferd8c83&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

El ingenio matemático contra las loterías

La banca siempre gana es la máxima de todo juego de azar que implique una apuesta de dinero. Sin embargo, ¿es posible romper esta máxima? A lo largo de la historia, sólo algunos se las han ingeniado para romperla. Es el caso de Eddie Triptonuno de los vigilantes de seguridad de de la US Multi-State Lottery Association, Mohan Srivastra, un profesor de matemáticas experto en estadística y del autodenominado sindicato autraliano. 

Si quieres saber qué ingenioso "truco" llevaron a cabo para salirse con la suya, haz click en el siguiente enlace:
http://tecnologia.elpais.com/tecnologia/2016/05/18/actualidad/1463580180_383064.html?id_externo_rsoc=TW_CC

Matemáticos predicen quién sera el ganador de la Eurocopa 2016

Un grupo de matemáticos de la Universidad de Economía de Innsbruck ha creado un modelo para predecir quién será el ganador de la Eurocopa 2016 inspirándose en en los estudios previos de Leiner y Zeileis, que predijeron correctamente el ganador del Mundial 2010 y la Eurocopa 2012. Dicho modelo se basa en el resultado de la suma de las probabilidades que tiene cada equipo de ganar, para cuyo cálculo se utilizan los márgenes de ganancias y el promedio de la regresión logística.

¿Quieres saber quién será el ganador de la Eurocopa 2016? Si es así, ¿a qué esperas para hacer click en el siguiente enlace?
http://www.elmundo.es/deportes/2016/06/02/574ff63a268e3e65508b461f.html

viernes, 3 de junio de 2016

Network of Thrones

Es bien sabido que los personajes de la famosa saga Juego de Tronos duran menos que un caramelo en el patio de un colegio y una de las grandes incógnitas aún sin despejar es quién es realmente el verdadero protagonista. Para responder a esta pregunta y, a las puertas del estreno de la sexta temporada, un grupo de matemáticos de Minnesota aplicó las redes neuronales a la historia, teniendo en cuenta las relaciones de los distintos personajes. ¿Quieres saber quién es el verdadero protagonista? Haz click en el siguiente enlace:


Artículo en español de EL PERIÓDICO:

http://www.elperiodico.com/es/noticias/extra/protagonista-principal-juego-tronos-5018948

Artículo en inglés de la revista Quartz:

http://qz.com/650796/mathematicians-mapped- out-every- game-of- thrones-relationship- to-find-the-main- character/

La ilusión de la mayoría.

La ilusión de la mayoría consiste en un fenómeno que provoca que la mayoría de un entorno perciba como común un comportamiento que, en realidad, es extraño. Este artículo nos explica detalladamente en qué consiste dicho fenómeno y por qué no podemos fiarnos de lo que dicen los "influencers" de nuestra red a través de las redes sociales.

jueves, 2 de junio de 2016

Lo que se sabe de ti gracias al Big Data.

En la actualidad, la gran mayoría de la información se gestiona a través de Internet: hacemos búsquedas sobre aquello que queremos saber, compras, transacciones, vemos series y/o películas, entre otras infinidad de utilidades. La principal herramienta que utilizamos para conectarnos a Internet es el smartphone o la tablet. Es por esto que no sorprende que aproximadamente un 75% de la población mundial tenga uno de estos dispositivos. Sin embargo, ¿somos conscientes de todo lo que estamos compartiendo a través de Internet y lo que ello conlleva? ¿Te has preguntado alguna vez cuánto se sabe de ti a través del "rastro" que dejas en Internet?

Si quieres averiguarlo, haz click en el siguiente link:
http://www.forbes.es/actualizacion/1014/lo-que-se-sabe-de-ti-gracias-al-big-data

R or Python?

¿Cuál debería ser la herramienta fundamental de un Data Scientist: R o Python? La respuesta es sencilla: ambas. Pese a que cada uno de ellos tiene su propia sintaxis, sus propias herramientas, librerías, etc, ambos son bastante similares. El uso de una de estas herramientas no debe ser excluyente de la otra, esto es, un verdadero Data Scientist no debe elegir necesariamente una de ellas, sino aprender a utilizar ambas y sacar partido a las ventajas de cada una para optimizar los recursos de los que dispone.

¿Cuáles son las ventajas y desventajas de cada uno? Si quieres saber la respuesta, pincha en el siguiente enlace:
http://www.kdnuggets.com/2016/03/r-python-learning-both-datacamp.html?utm_content=buffer7e0c2&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

Pred Crime: La app que predice el crimen.

La aplicación, creada por un grupo de profesores e investigadores de Matemáticas de la Universidad Jaume I de Castellón, utiliza un algoritmo que se basa en variables demográficas y económicas, entre otras. De este modo, una vez analizadas las distintas variables, traslada dicha información a mapas y delimita las zonas en las que existe una alta probabilidad de que se produzca un delito y cuándo es más probable que éste tenga lugar.

Pincha el siguiente enlace para leer el artículo completo en El confidencial:
http://www.elconfidencial.com/espana/2016-04-03/matematicos-de-la-universidad-jaume-i-crean-una-aplicacion-que-predice-el-crimen_1177382/

A Song of Ice and Data

Es bien sabido que Juego de Tronos es una de las series que está de moda en los últimos tiempos y que más expectación atrae. Este afán de los espectadores por descubrir los entresijos de la serie, ha llevado a un grupo de estudiantes de la Universidad de Munich a crear un algoritmo llamado: A song of Ice and Data. Dicho algoritmo, utilizando datos estadísticos obtenidos principalmente de la enciclopedia online A Wiki of Ice and Fire, determina cuál es la probabilidad de morir que tiene cada uno de los personajes de esta saga.

Pincha el siguiente enlace para leer el artículo en español:

EL MUNDO
http://www.elmundo.es/television/2016/04/22/571a792bca4741fd288b45dd.html

Pincha el siguiente enlace para leer el artículo en inglés:

QUARTZ
http://qz.com/665991/who-will-live-and-who-will-die-on-game-of-thrones-according-to-statistics/


lunes, 30 de mayo de 2016

Cómo predecir y prevenir los atascos

Científicos de la Universidad de Granada (UGR) han desarrollado un nuevo sistema informático, basado en técnicas de big data, que permite predecir cuándo se va a producir un atasco de tráfico y ayuda a prevenirlo. Este proyecto, denominado Predicción del Estado del Tráfico usando un sistema de monitorización de bajo coste (PETRA), mejora la información de tráfico disponible para el conductor, fusionando distintas fuentes de datos, y mejora también la fluidez de los desplazamientos.



“Los resultados de ese prototipo fueron una serie de mediciones como paso de vehículos por días, horas y velocidades medias en un área limitada que demostraron la viabilidad de nuestra propuesta”, señala el investigador.
Este proyecto ha permitido obtener datos nuevos que puedan  compararse y ser analizados con otros medios de obtención de datos, y realizar análisis de predicción sobre ellos. En esta nueva propuesta, los investigadorespartieron de los resultados del anterior proyecto, añadiendo información complementaria, como la señal Wi-Fi de los usuarios de los vehículos, desarrollando un nuevo dispositivo de captación, y añadiendo más nodos y otras fuentes de información, como Google Traffic o los aforadores oficiales de la DGT.
El análisis de los datos ha servido para proporcionar información relativa a predicción de atascos, uso de las carreteras, velocidades medias o información geolocalizada sobre el estado de las carreteras. Asimismo, se ha propuesto la extensión de los sistemas de difusión de los datos obtenidos usando servicios web, creando una serie de datos de acceso público para que futuros investigadores puedan realizar sus análisis, facilitando así el Open Data.

Por qué la estadística es la gran asignatura del siglo XXI


Los estudiantes de ciencias, ingenierías e incluso muchas ciencias sociales necesitan saber cálculo para sus carreras. Pero es un error pensar en la educación en términos de lo que un estudiante debería saber, hemos de plantearla en términos de lo que puede saber. Es más, como lleva años repitiendo Arthur Benjamin desde hace años, si hay una materia que todos nuestros estudiantes deberían conocer; "esa es la estadística, la probabilidad y estadística".
La estadística va de "riesgo, de recompensas, de azar". Básicamente, la estadística va de entender datos. Y los datos son hoy más necesario que nunca porque "el mundo ha cambiado de lo analógico a lo digital. Es hora de cambiar nuestro curriculum matemático de lo analógico a lo digital también; de la más clásica matemática continua a la moderna matemática discreta: la matemática de la incertidumbre, del azar, de los datos... esto es, estadística y probabilidad"
Pero, ¿es suficiente para ello la estadística que se enseña en las escuelas? O dicho de otra forma, ¿Debemos mejorar la educación estadística en la educación básica? Los expertos coinciden en que es una necesidad improrrogable. "Rotundamente sí". Carmen Batanero, Catedrática de Didáctica de las Matemáticas, propone que hay que centrarse en el "desarrollo del sentido estadístico", una combinación entre la cultura estadística (es decir, el conocimiento) y el razonamiento estadístico. Y precisamente aquí es donde más falla nuestro sistema porque "la estadística tiene un modo propio de razonamiento [distinto del matemático] que es necesario enseñar a los estudiantes".
Llevamos años diciendo que la información quiere ser libre: la cuestión, hoy en día, si vamos a usarla para ser libres nosotros. Y en este caso, no va a ser nada fácil.

No, no tienes más posibilidades de que te toque ser Mesa electoral si ya lo fuiste



Ante la repetición de elecciones, inédita en la democracia española, hay dudas sobre si quienes estuvieron en una Mesa electoral el 20D tendrán que repetir el 26J.

El rumor recuerda a una leyenda recurrente según la cual alguien que ha sidomiembro de una Mesa tiene más posibilidades de volver a serlo. Ambos son falsos. Con cada convocatoria electoral se vuelve a realizar un nuevo sorteo, aseguran aVerne fuentes del Congreso de los Diputados.

La primera leyenda tiene una base remota en el reglamento sobre normas electorales de las generales de 1977. "En el Real Decreto de las primeras elecciones, del 77, se decía que si las elecciones se convocaban en el mismo año se repetían los mismos componentes de Mesa”, explican las mismas fuentes, que añaden que luego se modificó con la Ley Orgánica del Régimen Electoral General(LOREG) del 85. La última reforma electoral de 2011 tampoco contempla esa reincidencia.
La jurisprudencia de la Junta Electoral Central ha ratificado además que no debe producirse esa continuidad. Dos acuerdos de esta institución, de 1986 y 1989, recuerdan que “ningún precepto impone dicha carga más allá de cada consulta electoral particular”.
El próximo 28 de mayo los Ayuntamientos, bajo la supervisión de las Juntas Electorales de Zona, volverán a rifar el puesto de presidente o presidenta, dos vocales y suplentes (dos por cada uno de los componentes). Se elegirán en público mediante cualquier procedimiento aleatorio entre todos los miembros del censo menores de 70 años que sepan leer y escribir. El presidente deberá tener el título de Bachiller o el de Formación Profesional de segundo Grado, o subsidiariamente el de Graduado Escolar o equivalente.

Data Scientist Most In-Demand Job, Reports Fast Company


Data scientists “are among the most wanted hires,” and to become one, individuals need skills in database management, statistics and machine learning, and distributed and parallel systems, reports Fast Company.

The findings come from a recent report of jobs site Glassdoor, which ranks the top 25 jobs in America based on  earning potential, career opportunities, and number of job openings.

The article also quotes recent analysis of Bureau of Labor Statistics data by the American Statistical Association, which shows that mean annual wages for statisticians grew 12% between 2000 and 2014 in inflation-adjusted dollars.

The article notes that there are 1,736 job openings for data scientists and the median base salary is $116,840.
Want to learn more about what data scientists do, and why statistics is such an important part of the field? Read profiles about data scientist Hilary Parker of Etsy,  Rayid Ghani of Data Science for Social Good, and DJ Patil, the first chief data scientist of the United States.

x

Es cierto que...¿cuanto más llevas sin ganar, más probable es que ganes?


“Cuanto más llevas sin ganar, más probable es que ganes el siguiente”. Esta afirmación, que podría parecer cierta, en realidad no tiene mucho sentido en términos de probabilidad. En los próximos párrafos analizaremos el porqué.


Antes de comenzar, quiero dejar claras las condiciones del tema que vamos a comentar. Lo que sigue se refiere a experimentos aleatorios independientes (es decir, su resultado en un momento dado no influye en el resultado del mismo experimento en otro momento, como puede pasar al lanzar un dado o una moneda) con un número finito de resultados en el que conocemos la probabilidad de cada uno de ellos.



Estamos ante un experimento aleatorio con dos posibles resultados (victoria de equipo de casa o victoria del equipo visitante, no consideramos el empate) en el que tenemos la probabilidad de cada uno de ellos (se podría hablar de cómo se determinan dichas probabilidades, pero eso es otro tema). Además, dichos resultados son independientes.

Si realizamos el experimento, podemos obtener cualquiera de los dos resultados. Imaginemos que gana el equipo de casa. Si volvemos a realizar el experimento, la pregunta es la siguiente: ¿ha aumentado la probabilidad de que gane el equipo visitante? La respuesta es NO. Para hacer un análisis probabilístico correcto, en este caso tenemos que considerar que el resultado obtenido en un enfrentamiento no influye en lo que pasará en el enfrentamiento siguiente (los resultados son independientes).

El big data pronostica que el Madrid será otra vez campeón de la Champions...!!!

Aficionados al fútbol de toda España tendrán este fin de semana 

los ojos puestos en Milán, especialmente los madrileños. La mitad 

de ellos terminará el partido decepcionada, y será la del Atlético de 

Madrid.


Eso es al menos lo que auguran las predicciones realizadas por 

Microsoft tras analizar miles de datos y noticias publicadas en

internet utilizando modelos de matemáticas predictivas. Las

probabilidades que Bing, el buscador de Microsoft, da a la victoria

del Real Madrid son del 51%. De hecho, los datos muestran un

empate técnico, no parece que ninguno esté en condiciones de 

confiarse demasiado.


Para evaluar este partido, Bing analiza grandes cantidades 

de datos. por un lado están los factuales, como resultados 

previos, encuentros anteriores, margen de victorias en cada

competición, condiciones meteorológicas, métricas de

jugadores individuales, etc. Utilizando modelos de 

matemática predictiva, el algoritmo combina esos datos con 

el 'sentimiento social', las percepciones y opiniones de los

internautas en webs y redes sociales.


Dependiendo del tipo de evento, ese sentimiento social tiene

más o menos peso: no es lo mismo un concurso en el que 

la decisión del ganador está en manos del público que un

partido de fútbol que depende de lo que ocurra en el

campo. Toda esta información da como resultado un

porcentaje de probabilidades de victoria para cada equipo.