
Según una investigación de la empresa de analítica SAS, solo una tercera parte de las compañías que invierten en captar datos asegura conseguir valor de ellos. ¿Qué falla? La mayoría de las veces no es suficiente con tener datos, hace falta saber qué hacer con ellos. Ahí es donde entra en juego la figura del llamado científico de datos, una persona que sepa descifrar, ordenar y trabajar con grandes cantidades de información. La tecnología avanza y este perfil ha pasado de ser algo extraño a convertirse en "la profesión con mayor atracción del siglo XXI", como apunta un artículo publicado en la revista Harvard Business Review.
Uno de los primeros es Álvaro Barbero, doctor en Ciencias de la Computación por la Universidad Autónoma de Madrid y que acabó su tesis de machine learning en 2011, justo cuando este término se empezaba a popularizar. Entonces, explica, "nadie entendía en qué trabajaba". Ahora, seis años después, Barbero es director del equipo de Ingeniería Algorítmica del Instituto de Ingeniería del Conocimiento de Madrid. "Ten en cuenta que hace 15 años no podíamos ni imaginar que todos llevaríamos un smartphone en el bolsillo". Para este especialista, que ha cooperado con el Instituto Max Planck para Sistemas Inteligentes (Alemania) y la Universidad de Tokio, "cinco años en big data son muchísimos".
The Economist ha publicado un artículo en el que repite nuevamente el mantra de que "los datos, y no el petróleo, son el recurso más valioso a nivel mundial". ¿No resulta un tanto exagerado?
La verdad es que sí. Pese a que se ha oído mucho, creo que es más conveniente decir que los datos son un recurso más. Años atrás, las compañías tenían datos de sus clientes y los examinaban, más a pequeña escala: el propósito solo era ofrecer un servicio. Ahora ha habido un cambio de mentalidad y se busca explotar la información para algo más, como dar un servicio más amoldado. Ese interés es el que ha traído la proliferación de herramientas tecnológicas que hacen posible el estudio de datos de forma masiva. La clave y la novedad se encuentra en el volumen de los datos que se manejan.
Entonces, ¿qué es el big data?
Es una herramienta que pretende contestar a una pregunta concreta, como predecir la demanda en un súper el próximo mes o de qué forma ir a un punto en el menor tiempo posible, y que emplea los datos como un recurso para llegar a ese fin.
Para ello, hay un camino que recorrer. Primero, hay que conseguir guardar esa gran cantidad de información que, como no se puede hacer con medios estándar, se precisa tecnología específica o crearla si todavía no existe. Después, se desarrollarán técnicas que faciliten el procesamiento de esos datos. Entonces, en la tercera capa de análisis, se pone algo de inteligencia.
¿Eso es lo que hace el data scientist (científico de datos), poner inteligencia en el big data?
El data scientist diseña todo el proceso. Por eso debe tener una formación diversa, entre matemático, informático, estadístico y especialista en marketing. Algo que, hasta hace muy poco, era difícil de adquirir en un centro de enseñanza. Aún hoy, su perfil va cambiando. Yo, de verdad, cada año debo amoldar los contenidos en los másteres en los que soy profesor.
¿Qué ejemplos das para que puedan entender el impacto de esta tecnología?
Les pongo el ejemplo de los móviles, que generan información para que Google Maps pueda llevarte por el camino más corto teniendo en cuenta el tráfico. También les hablo de las compañías tecnológicas que han surgido de la nada como Amazon. Lo que la distingue de otras tiendas virtuales es el estudio profundo de toda la información que tiene de sus compradores. Por eso ofrecen tiempos de entrega más cortos.
¿Y las compañías? ¿Lo comprenden?
He visto grandes empresas que deseaban entrar en el big data y que invirtieron mucho dinero en infraestructuras, en montar grandes depósitos de datos y tecnologías para tratarlos. Y en el instante en que llegaron hasta ahí, se preguntaron: ¿Y ahora para qué empleamos esto? Se han comprado un potente transatlántico y no saben qué hacer con él.
Y esto no ha hecho más que empezar…
El big data seguirá evolucionando hasta convertirse en un aspecto integrado en nuestras vidas. Si cuando conversamos de big data, sustituyéramos mentalmente el término por el de "informática", ¿a que nadie diría que tiene una startup de informática? La informática es ya una parte más en las compañías y en todos los aspectos de nuestra vida. Lo mismo pasará con el big data.
Hay estimaciones que mantienen que en diez años se producirá un 40% más de información que en la actualidad. ¿Podremos administrarla?
Es una pregunta verdaderamente difícil de responder. Lo que es seguro es que el volumen de datos generados va en aumento. Sin ir más lejos, los que proceden de la cantidad de sensores que tiene nuestro móvil inteligente, que da información muy precisa de nuestro comportamiento; o bien la información que aportamos en redes sociales. Aparte de esto, el llamado internet de las cosas se volverá más rutinario y aportará cantidades ingentes de datos sobre las propias máquinas. La capacidad de análisis va al alza, claro. Vamos a ver si aumenta al mismo ritmo.
¿De qué modo podría entonces trastocar nuestra realidad el big data?
Hay muchos algoritmos predictivos que se emplean en machine learning que son solo aproximaciones por el hecho de que es muy complicado encontrar modelos que reflejen la realidad de forma veraz. ¿Qué pasaría si de repente fuera algo sencillísimo de hacer? Esto es lo que plantea uno de los Inconvenientes del Milenio [los siete enunciados matemáticos más relevantes y que en el 2000 todavía no habían sido demostrados]. El P vs NP, que de forma simplificada viene a decir que en informática teórica hay 2 grandes conjuntos de inconvenientes que se pueden resolver: los P, que son los simples y que pueden resolverse con un ordenador sencillo; y los NP, que son los verdaderamente complejos y que precisan de más tiempo. Si se demostrara el teorema, si se demostrara que P es lo mismo que NP, desearía decir que se podría coger un inconveniente verdaderamente difícil y transformarlo en uno muy simple, lo que inutilizaría, por poner un ejemplo, todo el sistema de criptografía actual. Supondría un punto de cambio tan esencial en todos los campos que empresas como Google o IBM ya estudian soluciones prácticas para ello, sin resultados aplicables por el momento.
¿Y si prueban que P es diferente de NP?
No habría un cambio demasiado brusco.
Elvira del Pozo. Opinno, editora de MIT Technology Review en español.