Por primera vez en la historia, somos capaces de generar bases de datos con decenas de millones de entradas procedentes de la acción combinada de centenares de miles de usuarios en procesos de creación colectiva por Internet. A su vez, obtenemos datos de multitud de nuevos sensores, que permiten recoger un número cada vez mayor de datos que hay que procesar, estructurar y gestionar para poderlos transformar en información, gestionarla y poderla recuperar.
El volumen de información generado en un año crecerá hasta los 35 zetabytes, 35 billones de gigabytes, y la tecnología informática capaz de procesar estos datos crece también continuamente. Esta explosión en el volumen de datos generados implica una transformación profunda de nuestro modo de relacionarnos con los datos. El cambio tiene implicaciones éticas, epistemológicas y sociales, pero también demanda una fuerte transformación en el diseño y las formas de mostrar la información.
Denominamos big data al tratamiento y análisis de grandes repositorios de datos (data sets) tan grandes que resulta imposible tratarlos con las herramientas analíticas convencionales y en crecimiento constante.
Cuando el volumen de datos sobrepasa nuestra capacidad cognitiva, cuando las herramientas clásicas no permiten procesar todos los datos obtenidos, necesitamos nuevos métodos que permitan transformarlos en información útil: visual y accesible. Iniciativas como el cultural analytics de Manovich van encaminadas no solo a sacar provecho a escala cultural de la recapitulación masiva de datos, sino también a desarrollar nuevos métodos para la visualización de esta información y poderla mostrar al usuario.
“The size, complexity of formats and speed of delivery exceeds the capabilities of traditional data management technologies; it requires the use of new or exotic technologies simply to manage the volume alone. Many new technologies are emerging, with the potential to be disruptive. One major implication of big data is that in the future users will not be able to put all useful information into a single data warehouse. Logical data warehouses bringing together information from multiple sources as needed will replace the single data warehouse model.”
http://www.gartner.com/newsroom/id/1826214
Es fácil pensar que el concepto del big data forma parte solo de disciplinas científicas esotéricas, de la sociología o de los estudios de mercado, pero el big data es un fenómeno que nos afecta a todos y que condiciona y pone en peligro algunos de los derechos más básicos del usuario si no se afronta con suficiente rigor.
Hasta la llegada del big data la dispersión de los datos que dejábamos sobre nosotros mismos en el mundo era tan alta que podíamos estar seguros de que nadie podría reconstruir nuestros gustos, intenciones, deseos o temores con las nuevas formas de procesamiento de la información en grandes cantidades, la reproducción de perfiles psicológicos o de preferencias es algo mucho más sencillo. Solo con el historial de Google, un cracker mal intencionado podría llegar a tener mucha información sobre el perfil de un usuario cualquiera. Con la información que dejamos en las redes sociales es muy sencillo reconstruir nuestras vidas a partir de los rastros digitales.
El control de las tendencias globales es otro de los peligros potenciales del mal uso del big data. Con el elevado conocimiento de los trending topics y la elevada capacidad para manipular la información es fácil establecer tendencias manipulables. El data mining permite hacer estudios de preferencias o de disconformidad social.
Por primera vez, los ordenadores ya no solo nos ayudan a procesar la información, sino que son los únicos capaces de gestionar los volúmenes de datos derivados del big data. Los millones de datos que genera un acelerador de partículas no pueden ser procesados por la mente humana. La frontera entre ciencias formales y ciencias experimentales se difumina y el ordenador deja de ser una ayuda para pasar a ser una pieza imprescindible e insustituible de la investigación científica.
En un futuro inmediato, el valor económico pasará de los servicios a los datos, los algoritmos para analizarlos y el conocimiento que se pueda extraer.
- ZDNET, definición del big data, http://www.zdnet.com/blog/virtualization/what-is-big-data/1708
- Artículo de valoración sobre las implicaciones del big data y sus potencialidades. MIT Technology Review, “Big data comes with big responsabilities” http://www.technologyreview.com/news/425648/with-big-data-comes-big-responsibilities/
- Previsiones sobre el big data para este 2013, el principio de la guerra de los algoritmos… http://blogs.forrester.com/mike_gualtieri/13-01-02-big_data_predictions_for_2013
- Software open source disponible para el tratamiento del big data http://techcrunch.com/2012/10/27/big-data-right-now-five-trendy-open-source-technologies/
- Big data, la próxima frontera para la innovación http://www.mckinsey.com/insights/mgi/research/technology_and_Innovation/Big_data_The_next_frontier_for_innovation