Sobre la gestión de grandes cantidades de datos y su visualización

[divider_flat] Cuando los confines del mundo se extendían entre lo micro y lo mega, las millonésimas y los millones, todavía existía la ilusión de que una persona podía abarcarlo casi todo. Eran los tiempos en que Voltaire publicó Micromegas y unos cuantos amigos podían elaborar una enciclopedia del mundo conocido. En poco tiempo, hemos pasado de megas a gigas, de gigas a teras, y de teras a petas (un uno seguido de 15 ceros: llámese cuatrillón o billardo), mientras que el mundo microscópico se ha ido dividiendo progresivamente hasta lo infinitesimal: micro, nano, pico, femto… Vivimos en una época en la que los bytes de información que se generan y los datos almacenados alcanzan ya proporciones mareantes. Pensemos simplemente en toda la información biomédica disponible y en el cambio que esto ha supuesto para la investigación y la práctica médicas. Pero esto es muy poca cosa con la inmensidad de datos actuales. Un terabyte, que hace poco en un gran volumen de información, es ya la capacidad de almacenamiento estándar de un disco duro de uso doméstico, y todos sabemos lo poco que cabe en un terabyte.

Todas las fotos nuevas que llegan a Facebook cada mes ocupan unos 20 terabytes y todos los videos de Youtube unos 500 terabytes, según cálculos publicados en la revista Wired de junio de 2008. La Wikipedia contiene casi un petabyte de información, pero el afán enciclopédico colectivo hará que pronto se supere. Un petabyte (1.000 terabytes), es aproximadamente el volumen de datos que procesa Google cada tres días. Al ritmo actual, en menos de tres años procesaría un exabyte (1.000 petabytes), pero todos sabemos que no habrá que esperar tanto. Por muchos libros que se publiquen no es descabellado alojar en un servidor toda la literatura de una lengua e incluso de todas, ¿por qué no? La información digitalizada en ceros y unos que producen los grandes centros de investigación es de una proporción que no tienen nada que ver con la escala humana, ya sean las secuencias genéticas individuales, los datos generados por los aceleradores de partículas o incluso los bancos de imágenes de pruebas diagnósticas de los grandes hospitales. La idea de tener al alcance de unos cuantos clics en el ordenador toda esa información es sin duda atractiva, pero representa de entrada un gran reto de almacenamiento.

Sin embargo, el principal problema no es tanto almacenar todos esos datos como gestionarlos y hacerlos asequibles al usuario. Nuestro cerebro tiene una capacidad limitada para procesar la información numérica e incluso la textual, pero en cambio tiene mucha mayor capacidad de procesar la información visual. Algunos investigadores, como el matemático e informático Martin Wattenberg, creen que la única manera posible de dar sentido a tanta información acumulada es idear nuevas cartografías y otras formas de representación visual que condensen y resuman en una imagen un gran volumen de datos. Sólo así podremos tener una imagen de lo que un exabyte.