Big Data: Qué es y cómo utilizar las tecnologías Big Data
La definición de Big Data suele descifrarse de forma bastante sencilla: se trata de una gran cantidad de información, a menudo no sistemática, que se almacena en algún medio digital. Sin embargo, la matriz de datos con el prefijo «Grande» es tan grande que es imposible «sacarla» utilizando los medios habituales de estructuración y análisis. Por tanto, el término “big data” también se refiere a tecnologías para buscar, procesar y utilizar información no estructurada en grandes volúmenes.
Tabla de Contenidos
Una excursión a la historia y la estadística.
La frase “big data” apareció en 2008 de la mano ligera de Clifford Lynch. En un número especial de la revista Nature, el experto llamó big data al crecimiento explosivo de los flujos de información. Incluyó en él cualquier conjunto de datos heterogéneos de más de 150 GB por día.
Según los cálculos estadísticos de las agencias analíticas, en 2005 el mundo operaba con 4-5 exabytes de información (4-5 mil millones de gigabytes); después de 5 años, el volumen de big data aumentó a 0,19 zettabytes (1ZB = 1.024 EB). En 2012, los indicadores aumentaron a 1,8 ZB, y en 2015, a 7 ZB. Los expertos predicen que para 2020 los sistemas de big data manejarán entre 42 y 45 zettabytes de información.
Hasta 2011, las tecnologías de big data se consideraban sólo análisis científicos y no tenían ningún resultado práctico. Sin embargo, los volúmenes de datos crecieron exponencialmente y el problema de las enormes cantidades de información heterogénea y no estructurada se volvió relevante ya a principios de 2012. El aumento del interés por el big data es claramente visible en Google Trends.
Los mastodontes del negocio digital (Microsoft, IBM, Oracle, EMC y otros) se han sumado al desarrollo de la nueva dirección. Desde 2014, los big data se estudian en las universidades y se introducen en las ciencias aplicadas: ingeniería, física y sociología.
¿Cómo funciona la tecnología de big data?
Para que un conjunto de información pueda designarse con el prefijo “grande”, debe tener las siguientes características:
Regla VVV:
- <Volumen: los datos se miden por el tamaño físico y el espacio ocupado en un medio digital. «Grande» incluye matrices de más de 150 GB por día.
- Velocidad, actualización (Velocity): la información se actualiza periódicamente y se necesitan tecnologías inteligentes de big data para el procesamiento en tiempo real.
- Variedad: la información en matrices puede tener formatos heterogéneos, estructurarse parcial o completamente y acumularse de forma no sistemática. Por ejemplo, las redes sociales utilizan big data en forma de textos, vídeos, audio, transacciones financieras, imágenes y más.
Los sistemas modernos consideran dos factores adicionales:
- Variabilidad: los flujos de datos pueden tener picos y valles, estacionalidad y periodicidad. Las ráfagas de información no estructurada son difíciles de gestionar y requieren potentes tecnologías de procesamiento.
- Valor de los datos (Valor): la información puede tener una complejidad variable para la percepción y el procesamiento, lo que dificulta el funcionamiento de los sistemas inteligentes. Por ejemplo, una serie de mensajes de redes sociales es un nivel de datos y las operaciones transaccionales son otro. La tarea de las máquinas es determinar el grado de importancia de la información entrante para poder estructurarla rápidamente.
El principio de funcionamiento de la tecnología big data se basa en maximizar la información del usuario sobre cualquier tema o fenómeno. El objetivo de dicha familiarización con los datos es ayudar a sopesar los pros y los contras para tomar la decisión correcta. En las máquinas inteligentes, se construye un modelo del futuro basado en una serie de información, y luego se simulan varias opciones y se monitorean los resultados.
Las agencias de análisis modernas ejecutan millones de simulaciones similares cuando prueban una idea, una propuesta o resuelven un problema. El proceso está automatizado.
Las fuentes de big data incluyen:
- Blogs de Internet, redes sociales, sitios web, medios de comunicación y foros diversos;
- información corporativa – archivos, transacciones, bases de datos;
- lecturas de dispositivos de lectura: instrumentos meteorológicos, sensores celulares y otros.
- Los principios para trabajar con conjuntos de datos incluyen tres factores principales:
- Ampliabilidad del sistema. Esto suele entenderse como escalabilidad horizontal de los medios de almacenamiento. Es decir, los volúmenes de datos entrantes aumentaron: aumentaron la capacidad y la cantidad de servidores para almacenarlos.
Tolerancia al fracaso. Es posible aumentar el número de medios digitales y de máquinas inteligentes en proporción al volumen de datos hasta el infinito. Pero esto no significa que algunas máquinas no fallarán o quedarán obsoletas. Por tanto, uno de los factores para un trabajo estable con big data es la tolerancia a fallos de los servidores.
Localización. Se almacenan y procesan cantidades separadas de información dentro de un servidor dedicado para ahorrar tiempo, recursos y costos de transferencia de datos.
¿Para qué se usa esto?
Cuanto más sabemos sobre un objeto o fenómeno específico, con mayor precisión comprenderemos la esencia y podremos predecir el futuro. Al capturar y procesar flujos de datos provenientes de sensores, Internet y operaciones transaccionales, las empresas pueden predecir con bastante precisión la demanda de productos y los servicios de emergencia pueden prevenir desastres provocados por el hombre. A continuación se muestran algunos ejemplos fuera del ámbito empresarial y del marketing sobre cómo se utilizan las tecnologías de big data:
Cuidado de la salud. Más conocimientos sobre enfermedades, más opciones de tratamiento, más información sobre medicamentos: todo esto permite combatir enfermedades que hace 40 o 50 años se consideraban incurables.
Prevención de desastres naturales y provocados por el hombre. El pronóstico más preciso en esta área salva miles de vidas. La tarea de las máquinas inteligentes es recopilar y procesar muchas lecturas de sensores y, basándose en ellas, ayudar a las personas a determinar la fecha y el lugar de un posible cataclismo.
Las fuerzas del orden. Los macrodatos se utilizan para predecir el aumento de la delincuencia en diferentes países y tomar medidas disuasorias cuando la situación lo requiera.
Métodos de análisis y procesamiento.
Los principales métodos para analizar grandes cantidades de información incluyen los siguientes:
- Análisis en profundidad, clasificación de datos. Estas técnicas provienen de tecnologías para trabajar con información estructurada ordinaria en pequeños conjuntos. Sin embargo, en las nuevas condiciones se utilizan algoritmos matemáticos mejorados, basados en los avances en la esfera digital.
- Crowdsourcing. En el corazón de esta tecnología está la capacidad de recibir y procesar flujos de miles de millones de bytes de múltiples fuentes. El número finito de “proveedores” no está limitado por nada. ¿Es sólo el poder del sistema?
- Prueba dividida. Se seleccionan varios elementos de la matriz y se comparan entre sí alternativamente «antes» y «después» del cambio. Las pruebas A\B ayudan a determinar qué factores tienen la mayor influencia sobre los elementos. Por ejemplo, con la ayuda de pruebas divididas se pueden realizar una gran cantidad de iteraciones, acercándose gradualmente a un resultado confiable.
- Previsión. Los analistas intentan preestablecer el sistema con ciertos parámetros y posteriormente verifican el comportamiento del objeto basándose en la recepción de grandes cantidades de información.
- Aprendizaje automático. En el futuro, la inteligencia artificial podrá absorber y procesar grandes volúmenes de datos no sistematizados y utilizarlos posteriormente para el aprendizaje independiente.
- Análisis de la actividad de la red. Las técnicas de big data se utilizan para estudiar las redes sociales y las relaciones entre propietarios de cuentas, grupos y comunidades. En base a esto, se crean audiencias objetivo en función de intereses, geolocalización, edad y otras métricas.
Big data en negocios y marketing
Las estrategias de desarrollo empresarial, las actividades de marketing y la publicidad se basan en el análisis y trabajan con los datos disponibles. Las matrices grandes le permiten «impulsar» volúmenes gigantescos de datos y, en consecuencia, ajustar la dirección de desarrollo de una marca, producto o servicio con la mayor precisión posible.
Por ejemplo, la subasta RTB en publicidad contextual funciona con big data, lo que le permite anunciar ofertas comerciales de manera efectiva a un público objetivo específico, y no a todos.
¿Cuáles son los beneficios para las empresas?
- Creación de proyectos con alta probabilidad de tener demanda entre usuarios y compradores.
- Estudio y análisis de requerimientos del cliente con el servicio existente de la empresa. Sobre la base del cálculo, se ajusta el trabajo del personal de servicio.
- Identificar la lealtad e insatisfacción de la base de clientes mediante el análisis de una variedad de información de blogs, redes sociales y otras fuentes.
- Atraer y retener al público objetivo mediante un trabajo analítico con gran cantidad de información.
- Para predecir la popularidad de los productos se utilizan tecnologías, por ejemplo, utilizando los servicios de Google Trends.
Las técnicas de big data son utilizadas por todas las grandes empresas: IBM, Google, Facebook* (Meta* es reconocida como una organización extremista) y corporaciones financieras: VISA, Master Card, así como ministerios de todo el mundo. Por ejemplo, en Alemania redujeron la prestación de prestaciones por desempleo, calculando que algunos ciudadanos las recibían sin motivo. Así hemos logrado devolver al presupuesto unos 15 mil millones de euros.
El reciente escándalo con Facebook por la filtración de datos de usuarios sugiere que el volumen de información no estructurada está creciendo e incluso los mastodontes de la era digital no siempre pueden garantizar su total confidencialidad.
Por ejemplo, Master Card utiliza big data para evitar transacciones fraudulentas en las cuentas de los clientes. De esta manera se pueden ahorrar más de 3 mil millones de dólares estadounidenses cada año en concepto de robos.
En el ámbito del juego, el big data permite analizar el comportamiento de los jugadores, identificar las preferencias de la audiencia activa y, en base a ello, predecir el nivel de interés en el juego.
Hoy en día, las empresas saben más sobre sus clientes que nosotros sobre nosotros mismos, razón por la cual las campañas publicitarias de Coca-Cola y otras corporaciones son un éxito rotundo.
Perspectivas de desarrollo
En 2023, la importancia de comprender y, lo más importante, trabajar con conjuntos de información ha aumentado entre 4 y 5 veces en comparación con el comienzo de la década. Con la adopción masiva llegó la integración de big data en pequeñas y medianas empresas y nuevas empresas:
- Almacenamiento en la nube. Las tecnologías para almacenar y trabajar con datos en el espacio en línea pueden resolver muchos problemas para las pequeñas y medianas empresas: es más barato comprar una nube que mantener un centro de datos, el personal puede trabajar de forma remota y no se necesita una oficina.
- Aprendizaje profundo, inteligencia artificial. Las máquinas analíticas imitan el cerebro humano, es decir, se utilizan redes neuronales artificiales. El aprendizaje se produce de forma independiente a partir de grandes cantidades de información.
- Dark Data es la recopilación y el almacenamiento de datos no digitalizados sobre una empresa que no tiene un papel importante para el desarrollo empresarial, pero que es necesario en términos técnicos y legislativos.
- Cadena de bloques. Simplificando las transacciones online, reduciendo los costes de realización de estas operaciones.
Sistemas de autoservicio: desde 2016, se han introducido plataformas especiales para pequeñas y medianas empresas, donde puede almacenar y sistematizar datos de forma independiente.