Lo que hay detrás del Big Data

bigdata

bigdata

En la actualidad, nos rodea una gran cantidad de información por la irrupción de fenómenos como las redes sociales, aplicaciones móviles, páginas web, comercio electrónico, localizaciones GPS, etc. Además, existe otra información que procede de sensores instalados en aparatos como coches, trenes, aviones, autobuses, centrales de energía, incluso electrodomésticos,… para medir el rendimiento y las actividades de dichos aparatos.

Por Big Data se hace referencia al tratamiento y análisis de enormes cantidades de información (como la que mencionábamos en el párrafo anterior) que resulta imposible tratar empleando las herramientas de bases de datos y analíticas convencionales. Tras este concepto se esconden las “4V” que lo definen: Volumen (gran cantidad de información), Variedad (múltiples fuentes), Velocidad (procesamiento en tiempo real o en un tiempo razonable y finito) y Valor (búsqueda de conclusiones beneficiosas descartando la información no útil).

Existen algunos conceptos que a continuación resaltaremos y que son muy importante tener conocimientos de estos: Big Data, Hadoop, Data Scientist y Map Reduce.

Apache Hadoop es un entorno de software de código abierto que permite desarrollar aplicaciones de computación masiva permitiendo su ejecución de forma distribuida en hardware de bajo coste. Se basa en dos tecnologías liberadas por Google conocidas como MapReduce y Google File System (GFS).

MapReduce es un paradigma de programación para procesamientos de datos en paralelo, basado en la combinación de operaciones map y reduce para resolver un problema. Lo veremos en más detalle en el siguiente apartado.

El profesional capaz de analizar grandes volúmenes de datos empleando técnicas de Big Data y Análisis (estadística y lenguajes como R) para proporcionar resultados valiosos para los departamentos de negocio se conoce como Data Scientist o Científico de Datos.

Big Data: Una realidad ya

Múltiples sectores están adoptando soluciones Big Data. Los primeros en adoptarlas fueron los sectores de distribución y financiero. Por ejemplo, la empresa US Xpress10 realizó una optimización del uso de su flota de vehículos, reduciendo el tiempo de inactividad y el consumo de combustible basándose en la información obtenida de multitud de sensores en sus camiones.

En el sector financiero, nos encontramos, entre otras, aplicaciones para mejorar las capacidades de venta cruzada de productos, el control de fraude y de ofertas personalizadas. Otros sectores donde se está empezando a aplicar son la medicina, tanto para analizar patrones como para prevenir enfermedades y las aseguradoras (para proporcionar mejores ofertas y más personalizadas dependiendo de los patrones de uso).

Finalmente, cabe destacar la iniciativa colaborativa The Human Face of Big Data. Se basa en la premisa de que la visualización en tiempo real de datos recopilados, en todo el mundo, por satélites, millones de sensores, etiquetas RFID, smartphones y cámaras con GPS, permite a la humanidad percibir, calcular, comprender e influir en aspectos de la existencia como nunca se hubiera imaginado: los hábitos de las personas al levantarse, cómo mejorar el consumo eléctrico, el porqué del ruido de los radares en los aeropuertos, el comportamiento de algunas especies animales,..