Big Data – lac de données contre fuite de données

Opportunités et dangers des grandes données

Les données et les informations jouent un rôle de plus en plus important dans les entreprises et représentent de plus en plus un facteur de production important. Le concept de « lacs de données » est très prometteur en ce qui concerne l’analyse de ces données et informations, qui s’appuie sur l’apprentissage machine et l’intelligence artificielle. Cependant, il n’y a pas que des avantages.

Les données et les informations jouent un rôle de plus en plus important dans les entreprises et représentent de plus en plus un facteur de production important. Le concept de « lacs de données » est très prometteur en ce qui concerne l’analyse de ces données et informations, qui s’appuie sur l’apprentissage machine et l’intelligence artificielle. Cependant, il n’y a pas que des avantages.

L’avènement des Big Data et de la recherche d’informations évolutive s’appuyant sur des clusters de stockage basés sur Lucene, entre autres, a entraîné une renaissance des techniques d’analyse. Le suivi des connaissances dans l’ensemble de l’entreprise est devenu possible et beaucoup en ont bénéficié. Le fait que vous puissiez désormais déterminer la relation entre le temps de réponse et les ventes en ligne est énorme. Vous pouvez découvrir que la productivité diminue lorsque les temps d’arrêt de la production augmentent et quels sont les retards spécifiques qui ont le plus grand impact économique sur une compagnie aérienne. Il s’agit d’informations commerciales précieuses qui ne sont pas évidentes dans de grandes quantités de données brutes. L’apprentissage machine rend désormais cette opération extrêmement facile et, grâce à ses performances élevées et à sa couverture de volume, il peut être appliqué aux immenses quantités de données stockées dans ce que l’on appelle les lacs de données.

Le lac de données est capable de contenir des données très hétérogènes et non structurées. Il s’agit par exemple de photos, de vidéos, de courriers électroniques, de documents Word ou de données provenant d’autres systèmes, ainsi que d’autres données sans rapport. Les lacs de données sont particulièrement populaires là où, par exemple, il existe de grandes quantités de données de capteurs ou de données qui enregistrent l’état de santé des appareils IdO, par exemple. En raison de cette variété de données qui doivent être collectées et combinées pour l’analyse, le concept de lac de données s’est répandu.

Cependant, les lacs de données recèlent également des dangers dont tout le monde n’est pas conscient

Peut-être que la queue a commencé à remuer le chien. Mais comme de nombreuses « données stratégiquement sélectionnées » peuvent être combinées avec des « algorithmes d’apprentissage automatique sélectionnés », cela a apporté une valeur ajoutée significative à l’entreprise. Il serait donc logique de se plonger dans de plus en plus de données pour en tirer encore plus de valeur. Le contraire est vrai : la valeur ajoutée diminue avec l’augmentation des données. Chaque ensemble de données supplémentaires se superpose à des informations déjà connues, et la valeur ajoutée devient ainsi de plus en plus faible. Toutefois, ce fait n’a pas empêché la plupart des entreprises de cesser de simplement collecter toutes les données possibles auprès d’un maximum de sources différentes. De nombreuses entreprises espèrent finalement générer une valeur ajoutée grâce à l’apprentissage machine.

Le prix joue un autre rôle. Depuis que l’espace de stockage est devenu si bon marché, son utilité ne fait même plus de doute et personne ne se demande quel mal il pourrait entraîner. Après tout, la suppression est toujours possible s’il s’avère que vous n’avez pas besoin des données. Cependant, contre toute attente, nous avons vu un nombre important d’attaques visant ces grappes de stockage. Des attaques par force brute sur les mots de passe aux abus de failles logicielles, les pirates et les attaquants trouvent toujours des moyens d’accéder à ces coffres-forts de données d’entreprise. Plus les données sont centralisées en un seul « lieu », plus les dommages sont importants si jamais elles tombent entre de mauvaises mains. Ces lacs de données peuvent entraîner une malheureuse fuite de données.

Bien qu’il y ait une valeur ajoutée évidente à rassembler les données à des fins d’analyse, le risque d’une éventuelle fuite de données doit encore être clairement évalué et pris en compte. Lorsque les données sont décentralisées, il existe comparativement un niveau implicite de sécurité des données. Cela rend également plus difficile pour les pirates informatiques ou les initiés malveillants de sortir immédiatement avec tous les joyaux de la couronne. Par conséquent, une entreprise doit être consciente qu’une fois que les données sont dans un lac de données, elle accepte simultanément une perte de contrôle.

Donner la priorité à la protection des données et à la sécurité des réseaux

Des arguments similaires ont été et sont encore soulevés dans la discussion sur le nuage et les solutions de secours. D’autres produits qui ont considérablement influencé la gamme de solutions de protection des données, la centralisation des données et le contrôle d’accès jouent également un rôle important dans ce contexte. Pour les entreprises, il s’agit d’un défi évident et les lacs de données ou la centralisation des données ont par conséquent une signification ambivalente.

En fin de compte, les entreprises doivent réfléchir attentivement à la manière dont les lacs de données doivent être fournis et utilisés. Ce qui entre peut sortir. Par conséquent, lors de la prise de décision sur les stratégies de stockage et de transfert de données, l’impact potentiel d’une fuite de données doit être pris en compte dès le départ. Il existe souvent un moyen neutre de décentraliser les données. Bien entendu, des mesures de sécurité adéquates doivent être prises dans ce domaine également. En outre, de nombreuses techniques d’analyse peuvent exploiter les API de bases de données existantes. Cela permet d’analyser des données provenant de nombreuses sources décentralisées. Cette solution n’exige pas que toutes les données soient extraites dans le lac de données. Les données décentralisées peuvent être gérées via des mécanismes de contrôle d’accès natifs. Bien sûr, même avec cet arrangement, les fuites de données ne sont pas entièrement évitables, mais leur ampleur reste nettement moindre.

Klaus-Peter Kaul ist Regional Sales Director für Alpine (Schweiz und Österreich) bei Riverbed Technology. Der in den Bereichen Server, Storage, Security und Netzwerke versierte Manager schaut auf eine bereits über 22 Jahre dauernde Karriere bei führenden Unternehmen zurück, darunter McAfee, Secure Computing, Veritas Software und SGI Silicon Graphics.

Comments are closed.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More