大数据–数据湖与数据泄露

大数据的机遇与危险

数据和信息在企业中扮演着越来越重要的角色,越来越成为重要的生产要素。所谓数据湖的概念在分析这些数据和信息时有很多承诺,而这些数据和信息是由机器学习和人工智能支持的。然而,不仅有优势。

数据和信息在企业中扮演着越来越重要的角色,越来越成为重要的生产要素。所谓数据湖的概念在分析这些数据和信息时有很多承诺,而这些数据和信息是由机器学习和人工智能支持的。然而,不仅有优势。

依靠基于Lucene的存储集群等,大数据和可扩展的信息检索的出现,导致了分析技术的复兴。跟踪整个企业的知识已经成为可能,许多人已经受益。你现在可以确定响应时间在线销售之间的关系是巨大的。你可以发现,当生产停滞时间增加时,生产力会下降,具体哪些延误对航空公司的经济影响最大。这是大量原始数据中不明显的有价值的商业信息。现在,机器学习让这一切变得极为简单,由于其高性能和大容量的覆盖范围,可以应用于存储在所谓的数据湖中的海量数据。

数据湖能够容纳非常异构和非结构化的数据。例如照片、视频、电子邮件、Word文档或其他系统的数据,以及其他不相关的数据。比如说,凡是存在大量传感器数据的地方,或者记录物联网设备健康状况的数据,比如说,数据湖就特别受欢迎。由于这种必须收集和组合分析的各种数据,数据湖的概念变得广泛。

然而,数据湖也隐藏着危险,而这些危险并不是每个人都能意识到的

也许尾巴已经开始摇摆狗了。但由于很多 “经过战略选择的数据 “可以与 “经过选择的机器学习算法 “相结合,这为企业增加了巨大的价值。因此,深入研究越来越多的数据,从数据中创造更大的价值才是顺理成章的事情。恰恰相反,随着数据的增加,附加值会降低。每一个额外的数据集都与已经知道的信息重叠,因此附加值越来越小。然而,这一事实并没有使大多数公司停止简单地从尽可能多的不同来源收集所有数据。很多企业希望通过机器学习最终产生附加值。

价格起到了另一个作用。既然存储空间变得如此廉价,它的作用甚至不再被怀疑,也没有人去问它可能会带来什么恶果。毕竟,如果发现不需要这些数据,删除总是一种选择。然而,在各种困难下,我们看到了大量针对这些存储集群的攻击。从对密码的蛮力攻击到对软件缺陷的滥用,黑客和攻击者总是在想方设法进入这些企业数据仓库。越是集中在一个 “地点 “的数据,如果落入不法分子手中,损失就越大。这些数据湖会导致不幸的数据泄露。

虽然为分析目的将数据汇集在一起有明显的附加值,但仍必须明确评估和考虑到可能的数据泄漏风险。当数据被分散化后,数据的安全性就会有比较大的隐性。这也使得黑客或恶意的内部人员更难马上带着所有皇冠上的珠宝走出去。因此,公司必须意识到,一旦数据进入数据湖,就同时接受了失控的命运。

优先考虑数据保护和网络安全

在围绕云和备份解决方案的讨论中,已经和正在提出类似的论点。其他对数据保护解决方案范围产生重大影响的产品,数据集中和访问控制也在此背景下发挥了重要作用。对于企业来说,这是一个明显的挑战,数据湖或数据的集中化因此具有矛盾的意义。

最终,企业应该仔细考虑如何提供和使用数据湖。流入的东西可以流出。因此,在决定存储和数据卸载策略时,应从一开始就考虑数据泄露的潜在影响。通常情况下,数据的去中心化是一种中立的方式。当然,这里也要采取适当的网络安全措施。另外,许多分析技术可以利用现有的数据库API。这使得来自许多分散来源的数据可以被分析。这个解决方案并不要求将所有数据都拉入数据湖中。分散的数据可以通过原生的访问控制机制进行管理。当然,即使是这样的安排,数据的泄露也不是完全可以避免的,但程度仍然是大大的小。

Klaus-Peter Kaul ist Regional Sales Director für Alpine (Schweiz und Österreich) bei Riverbed Technology. Der in den Bereichen Server, Storage, Security und Netzwerke versierte Manager schaut auf eine bereits über 22 Jahre dauernde Karriere bei führenden Unternehmen zurück, darunter McAfee, Secure Computing, Veritas Software und SGI Silicon Graphics.

Comments are closed.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More