En abril de 1998, el estadounidense John R. Masey, consejero científico en el Silicon Graphics Inc, explicaba en un artículo cómo en el futuro la sociedad no podría procesar toda la cantidad de información que ésta le daba. Ahí se empezaría a acuñar el término de “Big Data” (literalmente, Grandes Datos). 20 años después, vaya que sí se hizo realidad.

Situémonos en un día cualquiera del año. Imaginemos los millones de usuarios que visitan Facebook, los millones de tuits que se publican a diario, los millones de mensajes y conversaciones que se realizan a través de WhatsApp, Joyn, Telegram o Line, los millones de correos electrónicos que envían y reciben millones de personas de todo el mundo, los miles de llamadas telefónicas y videoconferencias a través de Skype. Sumemos todo ese ingente volumen de información, las páginas que visitan dichos usuarios, las noticias que leen, las ofertas de anuncios, ventas y alquileres, las visitas a sitios de turismo, de ocio y de cultura, etc. Multiplicad ahora esa información personal por más de 3.000 millones de los internautas del mundo… y no habríamos ni empezado. Pues habría que añadir, además, los datos que transfieren los miles de millones de objetos que se comunican entre sí a través de sensores y chips digitales, o los datos de los millones de hospitales, administraciones públicas, GPS y smartphones, por no hablar de los procedentes de los miles de satélites de comunicaciones alrededor de todo el globo. Bueno, pues todo eso y mucho más es Big Data. Por dar unas cifras, en 1 min en Internet se generan 100.000 tuits, se bajan 25.000 aplicaciones, se juegan a 210.000 minutos de Angry Birds, 30.000 se conectan a Facebook y se ven 1,5 millones de vídeos en Youtube.

Todo esto que se gesta en Internet va coleccionando datos de nuestro perfil (sexo, edad, gustos, hábitos, preferencias, aficiones, profesión,…) y sirve para proporcionar mejores resultados en las búsquedas. He ahí resuelto el “misterio” a preguntas tales como ¿cómo sabe Facebook qué personas me gustaría conocer? ¿Cómo sabe la web qué páginas o productos me interesa visitar?

Big Data también sirve para tomar decisiones o generar políticas que impacten de manera positiva (o no) en la sociedad, los clientes, proveedores, socios o todo aquel que interese a una organización. Utilizando adecuadamente estos datos se obtiene en cualquier caso una gran ventaja competitiva. Para ser competitivas en el siglo actual, como señala Bill Franks, director de Analítica de Teradata: “Es imperativo que las organizaciones persigan agresivamente la captura y análisis de estas nuevas fuentes de datos para alcanzar los conocimientos y oportunidades que ellas ofrecen”. Los expertos creen que el empleo de técnicas basadas en Big Data puede incrementar la rentabilidad de dos de cada tres empresas europeas un 15%. Sin duda, es una oportunidad para que las organizaciones sean más eficientes y competitivas aportando servicios de valor añadido a sus clientes, deduciendo las necesidades de sus potenciales consumidores, y también plantea el reto de tener que gestionar grandes volúmenes de datos de muy diversos formatos y fuentes, que crecen año tras año. En este escenario, la tecnología es la clave.

Big Data supone la confluencia de tendencias que venían madurando desde la última década: redes sociales, movilidad, aplicaciones, caída del coste de la banda ancha, interconexión de objetos a través de internet. Ello ha posibilitado el correo electrónico, vídeos, documentos y mensajes digitales, redes de sensores y dispositivos, y todo lo que señalamos más arriba. Todas estas tendencias tienen una cosa en común: producen una ingente cantidad de datos que necesitan ser captados, almacenados, procesados y analizados. Muchos de estos datos se necesitan analizar en tiempo real, otros estarán almacenados durante años y solo para consultas puntuales. Esta memoria gigante no para de crecer y será necesario dotarla de inteligencia. Y es que, cada día creamos 2,5 quintillones de bytes de datos. Ya hemos pasado de la era del petabyte a la del exabyte, y para 2020 nos adentraremos en la del zettabyte. Para que entendamos:

  • Bit (b): diminutivo de binary digit (dígito binario) por el que los ordenadores utilizan los 1 y 0 para almacenar y procesar datos.
  • Byte (B) = 8 bits: tiene información suficiente para crear un carácter (esto es, digamos, una letra).
  • Kilobyte (KB) = 1000 bytes: una página de texto son unos 2 KB (2000 B).
  • Megabyte (MB) = 1000 KB: las obras completas de Shakespeare son 5 MB. Una canción suele tener unos 4 MB.
  • Gigabyte (GB) = 1000 MB: una película de dos horas puede comprimirse en entre 1 y 2 GB.
  • Terabyte (TB) = 1000 GB: todos los libros Biblioteca del Congreso de Estados Unidos suman un total de 15 TB. 
  • Petabyte (PB) = 1000 TB: todas las cartas entregadas por el servicio postal estadounidense suman alrededor de 5PB. Google procesa aproximadamente 1PB cada hora.
  • Exabyte (EB) = 1000 PB: el equivalente a 10.000 millones de copias de The Economist.
  • Zettabyte (ZB) = 1000 EB: se calcula que al final de este año habrá un total de 1,5 ZB de información en total, o un equivalente, 47 millones de años en ver todas las películas HD por persona.
  • Yottabyte (YB) = 1000 ZB: aún es imposible imaginarlo…

La revolución de los datos ya está cambiando el panorama de los negocios y en las industrias establecidas de modo muy importante. Por citar algunos ejemplos:

Rolls Royce ha comenzado a incluir sensores en sus motores que proporcionan información en tiempo real sobre las piezas y así comunicar a sus clientes cuándo su coche necesita pasar una revisión. Esta acción ha supuesto un cambio esencial, ya que ha pasado de vender un producto a vender, además, un servicio.

Google ha desarrollado, entre otras, la aplicación Flu Trends, que permite descubrir cómo ciertos términos de búsqueda sirven como buenos indicadores de la actividad de la gripe. Con estos datos se pueden hacer cálculos aproximados de la actividad de la enfermedad de la gripe en determinadas regiones, lo que es de gran utilidad en acciones preventivas para evitar la propagación.

IBM ha llevado a cabo la estrategia Smart Meters para realizar mediciones de consumo energético en los hogares, organizaciones o empresas. Sobre la base de esa información, la compañía fue capaz de determinar los hábitos de los vecinos en cada momento del día, ver cómo variaba la demanda y hasta cambiar algunos de esos hábitos con estrategias de premios y bonificaciones a sus clientes.

Amazon ha manifestado que más del 30% de sus ventas se generan por su motor de recomendación.

Las aseguradoras pueden ahora monitorizar los estilos de vida de sus clientes y ofrecer sus tarifas en función de sus componentes o formas de vida, en lugar de hacerlo por su edad y sexo.

Las entidades bancarias y las empresas de servicios financieros también están analizando e integrando el Big Data con objeto de atraer y retener a los clientes más efectivos, facilitar ofertas, reforzar la detección de fraudes o gestionar los riesgos y cumplimiento de normativas.

Esta revolución también está cambiando a los gobiernos. Las autoridades de gestión de los impuestos pueden controlar mejor las situaciones de desempleo u ocupación en función de los perfiles de comportamiento de los ciudadanos. Los servicios de salud están minando los datos clínicos con el objeto de hacer un uso más eficiente de las medicinas. Así, el Gobierno Federal de Alemania ha conseguido recortar sus gastos anuales en más de 10.000 millones de euros, en los cuatro últimos años, mediante una gestión eficiente del tiempo de ocupación de los empleados y también de los desempleados.

Al fin y al cabo, de lo que se trata es de analizar toda la información relevante y extraer patrones en la forma de reglas, afinidades, correlaciones, tendencias, modelos de predicción e incluso sentimientos. En efecto, la minería de sentimientos centrado en el análisis de mensajes de texto y otros formatos de medio, permiten descubrir la opinión y hasta la intención de los usuarios, lo que es de especial importancia en la intercepción de potenciales terroristas o criminales. ¿Os suena la película de Minority Report?

Aunque ya hemos visto muchas grandes empresas están sacando partido de esta inagotable fuente de información, lo cierto es que actualmente, a febrero de 2018, el principal problema es justamente tal cantidad de datos a procesar y la falta de capital humano para ello. A corto plazo, se prevé que sea un perfil profesional altamente demandado. Los dos principales vectores en los que se basa este crecimiento del Big Data son el aumento del poder adquisitivo de las nuevas generaciones (en España lo dudo mucho) y la aplicación de la tecnología de conexión a redes 5G, cuyo despliegue comercial está previsto para el año 2020. En efecto, los menores de 35 años del Primer Mundo, conocidos por pertenecer a la generación bautizada como Millennial, podrán aumentar el volumen de datos por su adaptación al comercio electrónico y su progresiva capacidad de compra, según los expertos. Mientras, el “cambio radical” lo protagonizará la conexión 5G que, de acuerdo con los expertos, permitirá reducir los costes y aumentar la velocidad de las transacciones en los próximos años.

Vale, pero, ¿cómo "utilizan" Big Data?

1º. El primer paso en el proceso de la utilización del Big Data es la recogida de una información fiable y de calidad. Por poner un ejemplo muy simple. Una gran cantidad de personas buscan desde sus móvles una misma información en un lugar determinado y a una hora determinada. En el registro de esa base de datos quedan almacenados tres datos: lugar, hora y la búsqueda realizada. Estos datos están desordenados y dispersos en la nube, en Internet.

2º. El segundo paso, después de haber recogido la información, consiste en transformar esos datos recogidos, aún desordenados, para su posterior almacenamiento. Un ejemplo de esa transformación la tenemos en los datos referidos al sexo de una persona, se puede recoger como Hombre y Mujer o como Masculino o Femenino, aquí se transforma en dos formas, por ejemplo, H para hombre y M para mujer. Después de que todos los datos estén ordenados y colocados en filas y columnas son enviados a una base de datos para su análisis.

3º. Después de transformar los datos, estos pasan a grandes bases de datos. Cada base de datos ordena y guarda la información de una forma distinta. El motivo es debido a las diferentes técnicas de análisis, que requieren disponer la información de una forma u otra. Por ejemplo, tener una base de datos numérica si voy a hacer un análisis estadístico cuantitativo.

4º. Por último tenemos el análisis, que es el paso más importante. Sin un buen análisis, el Big Data no serviría sino para contabilizar datos sin ver por qué, cómo o qué sucede en el mundo real. Existen muchos tipos de análisis, dependiendo la base de datos con la que se trabaje.

  • Análisis de texto: Como el propio nombre explica, consiste en analizar el texto que se encuentra ordenado en la base de datos. Por ejemplo, este sistema facilita mucho la contabilización de artículos escritos sobre un tema, los tuits o publicaciones en foros. Esto puede determinar la repercusión de un tema a lo largo de un tiempo. 
  • Asociación: Este tipo de análisis sirve para unir diferentes variables y poder determinar un hecho determinado. Un ejemplo sería las ventas de un producto (primera variable) en unas zonas determinadas (segunda variable), juntándolas podemos determinar el impacto que ha tenido la celebración de un acontecimiento. 
  • Minería de datos: Con la minería de datos, podemos encontrar patrones de comportamiento predictivo de una forma estable. Un ejemplo sería que después de un acontecimiento deportivo muy importante, las visitas a una web se disparan. Este patrón de comportamiento es aprovechado por las diferentes empresas relacionadas en ese sector para incorporar su publicidad en esas páginas.
Big Data, la antesala de la Inteligencia Artificial

Los datos médicos volcados por millones de hospitales, al igual que sus doctores, son un blanco importante para su análisis y puesta a punto de futura inteligencia artificial (IA). Con lo que os cuento a continuación entenderéis por qué.

La primera y más importante tarea de la mayoría de los médicos es diagnosticar correctamente enfermedades, y después sugerir el mejor tratamiento posible. Si uno llega a la clínica quejándose fiebre y diarrea, podría tener una intoxicación alimentaria. Pero, asimismo, estos síntomas podrían corresponder a un virus estomacal o a alguna enfermedad nueva desconocida. El médico solo tiene 7 minutos máximo para hacer un diagnóstico correcto, porque ese es el tiempo por el que paga el seguro que uno tiene contratado (o en el caso de España, el decaído papá Estado del bienestar). Ese tiempo no permite hacer más que unas pocas preguntas y quizá un examen rápido. Después, el médico contrasta esta escasa información con el historial clínico del paciente, y con el vasto mundo de las enfermedades humanas. Lamentablemente, ni el médico más diligente es capaz de recordar todas las dolencias previas de un paciente ni sus chequeos rutinarios. De igual modo, ningún médico puede estar familiarizado con todas y cada uno de los artículos publicados en todas las revistas médicas. Para rematarlo el médico está a veces cansado o hambriento, o quizá incluso enfermo, lo que afecta a su juicio. No es extraño, pues, que a veces se equivoquen en sus diagnósticos o recomienden un tratamiento menos que óptimo.

Consideremos ahora una inteligencia artificial que contenga en sus bancos de datos información acerca de todas las enfermedades conocidas y todos los medicamentos de la historia. Después, puede actualizar dichos bancos de datos a diario, no solo con los descubrimientos de nuevas investigaciones, sino también con las estadísticas obtenidas de todas las clínicas y todos los hospitales del mundo. Dicha IA puede además estar íntimamente familiarizado no solo con mi genoma y mi historial médico, sino también con los genomas e historiales médicos de mis padres, hermanos, primos, vecinos, etc. Esa IA sabrá de inmediato si en fechas recientes visité un país tropical, si sufro de infecciones estomacales o si esta mañana personas de toda la ciudad están acusando diarrea. Por último, esa IA nunca estará cansada, hambrienta o enferma, y tendrá todo el tiempo para mí. Podría sentarme cómodamente en el sofá de casa, sin largas esperas en la consulta junto a gente también enferma y malhumorada, y contestar a centenares de preguntas, diciéndole a la IA cómo me encuentro exactamente.

Toda una serie de arduos problemas técnicos impiden aún a esta IA y a sus iguales reemplazar a la mayoría de los médicos y demás profesionales mañana mismo. Pero estos problemas técnicos, por complejos que sean, solo habrá que resolverlos de una vez. La formación de un médico humano, siguiendo con el ejemplo, es un proceso complicado y caro que dura años. Cuando el proceso se ha completado, después de diez años de estudios y períodos de prácticas, todo lo que tenemos es UN médico. Si queremos dos médicos, tenemos que repetir el proceso. En cambio, si se resuelven los problemas técnicos que dificultan la puesta en marcha de esas IA, tendremos no uno, sino un número infinito de médicos, disponibles en cualquier rincón del mundo las 24 horas del día. De modo que, aunque cueste 100.000 millones de euros o dólares hacer que funcione, a la larga será mucho más barato que formar a médicos humanos.


Bien, si ya os habéis familiarizado y comprendéis algo del Big Data, me doy por contento. Pues, hablar de Big Data ya no es hacerlo sobre el futuro, es hablar del presente, de esa finísima línea que separa a los que lideran el cambio porque conocen perfectamente las necesidades y gustos de sus clientes, de los que se estancan y no evolucionan. ¿Es precisamente ese conocimiento la clave del éxito de empresas billonarias como Google y Facebook? Sin duda.


 

 

Comentarios

Entradas populares de este blog

Los entresijos de la realidad a examen: el experimento de la doble rendija

Wealthy anti-GMO society

DesNortados

Españoles olvidados que antecedieron a Galileo y Darwin

Cobertura vegetal y rotaciones para una agricultura en obligada expansión