Big Data – lago de datos versus fuga de datos

Oportunidades y peligros de Big Data

Los datos y la información desempeñan un papel cada vez más importante en las empresas y representan cada vez más un importante factor de producción. El concepto de los llamados lagos de datos promete mucho cuando se trata del análisis de esos datos e información, que se apoya en el aprendizaje automático y la inteligencia artificial. Sin embargo, no sólo hay ventajas.

Los datos y la información desempeñan un papel cada vez más importante en las empresas y representan cada vez más un importante factor de producción. El concepto de los llamados lagos de datos promete mucho cuando se trata del análisis de esos datos e información, que se apoya en el aprendizaje automático y la inteligencia artificial. Sin embargo, no sólo hay ventajas.

La llegada de Big Data y la recuperación de información escalable basada en clusters de almacenamiento basados en Lucene, entre otros, ha llevado a un renacimiento de las técnicas analíticas. El seguimiento del conocimiento a través de la empresa se ha hecho posible y muchos se han beneficiado. Que ahora puedas determinar la relación entre el tiempo de respuesta de las ventas en línea es enorme. Puedes descubrir que la productividad disminuye cuando aumenta el tiempo de inactividad de la producción y qué retrasos específicos tienen el mayor impacto económico en una aerolínea. Se trata de una valiosa información comercial que no resulta obvia en grandes cantidades de datos en bruto. El aprendizaje automático ahora lo hace extremadamente fácil y, gracias a su alto rendimiento y cobertura de volumen, puede aplicarse a las inmensas cantidades de datos almacenados en lo que se conoce como lagos de datos.

El lago de datos es capaz de contener datos muy heterogéneos y no estructurados. Los ejemplos incluyen fotos, vídeos, correos electrónicos, documentos de Word o datos de otros sistemas, y otros datos no relacionados. Los lagos de datos son particularmente populares donde, por ejemplo, existen grandes cantidades de datos de sensores, o datos que registran el estado de los dispositivos de IO sobre su salud, por ejemplo. Debido a esta variedad de datos que deben ser recopilados y combinados para el análisis, el concepto del lago de datos se generalizó.

Sin embargo, los lagos de datos también albergan peligros de los que no todo el mundo es consciente

Tal vez la cola ha empezado a mover al perro. Pero como muchos «datos seleccionados estratégicamente» pueden combinarse con «algoritmos seleccionados de aprendizaje automático», esto ha añadido un valor significativo al negocio. Por lo tanto, sería lógico sumergirse en más y más datos para crear aún más valor a partir de ellos. Lo contrario es cierto: el valor añadido disminuye con el aumento de los datos. Cada conjunto de datos adicionales se superpone a la información que ya se conoce, por lo que el valor añadido se hace cada vez más pequeño. Sin embargo, este hecho no ha hecho que la mayoría de las empresas dejen de simplemente recopilar todos los datos que puedan de tantas fuentes diferentes como sea posible. Muchas empresas esperan generar en última instancia el valor añadido a través del aprendizaje de la máquina.

Price juega otro papel. Como el espacio de almacenamiento se ha vuelto tan barato, ya no se duda de su utilidad y nadie se pregunta qué mal puede llevar consigo. Después de todo, el borrado es siempre una opción si resulta que no necesitas los datos. Sin embargo, contra todo pronóstico, hemos visto un número significativo de ataques dirigidos a estos grupos de almacenamiento. Desde ataques de fuerza bruta a contraseñas hasta abusos de fallas de software, los hackers y atacantes siempre están encontrando maneras de llegar a estas bóvedas de datos de la empresa. Cuantos más datos se centralizan en un solo «lugar», mayor es el daño si alguna vez cae en las manos equivocadas. Estos lagos de datos pueden resultar en una desafortunada fuga de datos.

Aunque existe un claro valor añadido al reunir los datos con fines analíticos, el riesgo de una posible fuga de datos debe evaluarse y tenerse en cuenta claramente. Cuando los datos se descentralizan, existe comparativamente un nivel implícito de seguridad de los datos. Esto también hace más difícil que los hackers o los malvados internos salgan con todas las joyas de la corona de inmediato. Por lo tanto, una empresa debe ser consciente de que una vez que los datos están en un lago de datos, están aceptando simultáneamente una pérdida de control.

Dar prioridad a la protección de datos y a la seguridad de la red

Argumentos similares han sido y están siendo planteados en la discusión sobre la nube y las soluciones de respaldo. Otros productos que han influido considerablemente en la gama de soluciones de protección de datos, la centralización de datos y el control de acceso también desempeñan un papel importante en este contexto. Para las empresas, esto es un claro desafío y los lagos de datos o la centralización de datos tienen, por consiguiente, un significado ambivalente.

En última instancia, las empresas deben pensar cuidadosamente en cómo se deben proporcionar y utilizar los lagos de datos. Lo que entra puede salir. Por consiguiente, al decidir las estrategias de almacenamiento y descarga de datos, se debe considerar desde el principio el posible impacto de una fuga de datos. A menudo hay una forma neutral de descentralizar los datos. Por supuesto, las medidas de seguridad de la red deben ser seguidas aquí también. Además, muchas técnicas analíticas pueden aprovechar las API de las bases de datos existentes. Esto permite analizar los datos de muchas fuentes descentralizadas. Esta solución no requiere que todos los datos sean llevados al lago de datos. Los datos descentralizados pueden gestionarse mediante mecanismos nativos de control de acceso. Por supuesto, incluso con este arreglo, la fuga de datos no se puede evitar del todo, pero la extensión sigue siendo significativamente menor.

Klaus-Peter Kaul ist Regional Sales Director für Alpine (Schweiz und Österreich) bei Riverbed Technology. Der in den Bereichen Server, Storage, Security und Netzwerke versierte Manager schaut auf eine bereits über 22 Jahre dauernde Karriere bei führenden Unternehmen zurück, darunter McAfee, Secure Computing, Veritas Software und SGI Silicon Graphics.

Los comentarios están cerrados.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More