Grandes Dados – lago de dados versus fuga de dados

Oportunidades e perigos dos grandes dados

Os dados e a informação desempenham um papel cada vez mais importante nas empresas e representam cada vez mais um factor de produção significativo. O conceito dos chamados lagos de dados promete muito quando se trata da análise de tais dados e informações, o que é apoiado pela aprendizagem de máquinas e inteligência artificial. No entanto, não há apenas vantagens.

Os dados e a informação desempenham um papel cada vez mais importante nas empresas e representam cada vez mais um factor de produção significativo. O conceito dos chamados lagos de dados promete muito quando se trata da análise de tais dados e informações, o que é apoiado pela aprendizagem de máquinas e inteligência artificial. No entanto, não há apenas vantagens.

O advento de Grandes Dados e a recuperação de informação escalável, confiando em clusters de armazenamento baseados em Lucene, entre outros, levou a um renascimento das técnicas analíticas. O acompanhamento dos conhecimentos em toda a empresa tornou-se possível e muitos deles beneficiaram. Que agora é possível determinar a relação entre o tempo de resposta das vendas em linha é enorme. Pode descobrir que a produtividade diminui quando o tempo de paragem da produção aumenta e quais os atrasos específicos que têm o maior impacto económico numa companhia aérea. Trata-se de informação comercial valiosa que não é óbvia em grandes quantidades de dados em bruto. A aprendizagem mecânica torna agora isto extremamente fácil e, graças ao seu elevado desempenho e cobertura de volume, pode ser aplicada às imensas quantidades de dados armazenados nos chamados lagos de dados.

O lago de dados é capaz de conter dados muito heterogéneos e não estruturados. Exemplos incluem fotos, vídeos, e-mails, documentos Word ou dados de outros sistemas, e outros dados não relacionados. Os Lagos de Dados são particularmente populares onde, por exemplo, existem grandes quantidades de dados de sensores, ou dados que registam o estado dos dispositivos IoT sobre a sua saúde, por exemplo. Devido a esta variedade de dados que devem ser recolhidos e combinados para análise, o conceito de lago de dados tornou-se generalizado.

No entanto, os lagos de dados também abrigam perigos dos quais nem todos estão cientes

Talvez a cauda tenha começado a abanar o cão. Mas uma vez que muitos “dados estrategicamente seleccionados” podem ser combinados com “algoritmos de aprendizagem de máquinas seleccionados”, isto tem acrescentado um valor significativo ao negócio. Portanto, seria apenas lógico mergulhar em cada vez mais dados para criar ainda mais valor a partir deles. O oposto é verdadeiro: o valor acrescentado diminui com o aumento dos dados. Cada conjunto de dados adicionais sobrepõe-se à informação já conhecida, e o valor acrescentado torna-se assim cada vez menor. No entanto, este facto não fez com que a maioria das empresas deixasse simplesmente de recolher todos os dados que podem, a partir do maior número possível de fontes diferentes. Muitas empresas esperam gerar, em última análise, o valor acrescentado através da aprendizagem mecânica.

O preço desempenha outro papel. Desde que o espaço de armazenamento se tornou tão barato, a sua utilidade já nem sequer é duvidada e ninguém pergunta que mal pode carregar com ele. Afinal, a eliminação é sempre uma opção se se verificar que não precisa dos dados. No entanto, contra todas as probabilidades, assistimos a um número significativo de ataques contra estes aglomerados de armazenamento. Desde ataques por força bruta a palavras-passe a abusos de falhas de software, hackers e atacantes estão sempre a encontrar formas de chegar a estes cofres de dados empresariais. Quanto mais dados estiverem centralizados num único “local”, maior será o dano se alguma vez cair em mãos erradas. Estes lagos de dados podem resultar numa infeliz fuga de dados.

Embora haja um claro valor acrescentado na reunião de dados para fins analíticos, o risco de uma possível fuga de dados deve ainda assim ser claramente avaliado e tido em conta. Quando os dados são descentralizados, existe comparativamente um nível implícito de segurança de dados. Isto também torna mais difícil para os hackers ou maliciosos infiltrados saírem imediatamente com todas as jóias da coroa. Portanto, uma empresa deve estar ciente de que, uma vez que os dados se encontram num lago de dados, estão simultaneamente a aceitar uma perda de controlo.

Dar prioridade à protecção de dados e à segurança das redes

Argumentos semelhantes têm sido e estão a ser apresentados na discussão em torno da nuvem e das soluções de apoio. Outros produtos que têm influenciado significativamente a gama de soluções de protecção de dados, centralização de dados e controlo de acesso também desempenham um papel importante neste contexto. Para as empresas, este é um claro desafio e os lagos de dados ou a centralização de dados têm, consequentemente, um significado ambivalente.

Em última análise, as empresas devem pensar cuidadosamente sobre como os lagos de dados devem ser fornecidos e utilizados. O que entra pode fluir para fora. Por conseguinte, ao decidir sobre estratégias de armazenamento e descarga de dados, o impacto potencial de uma fuga de dados deve ser considerado desde o início. Muitas vezes existe uma forma neutra de descentralizar os dados. É claro que também aqui devem ser seguidas medidas de segurança de rede adequadas. Além disso, muitas técnicas analíticas podem aproveitar as APIs de bases de dados existentes. Isto permite que dados de muitas fontes descentralizadas sejam analisados. Esta solução não requer que todos os dados sejam puxados para o lago de dados. Os dados descentralizados podem ser geridos através de mecanismos de controlo de acesso nativos. Claro que, mesmo com esta disposição, a fuga de dados não é totalmente evitável, mas a extensão permanece significativamente menor.

Klaus-Peter Kaul ist Regional Sales Director für Alpine (Schweiz und Österreich) bei Riverbed Technology. Der in den Bereichen Server, Storage, Security und Netzwerke versierte Manager schaut auf eine bereits über 22 Jahre dauernde Karriere bei führenden Unternehmen zurück, darunter McAfee, Secure Computing, Veritas Software und SGI Silicon Graphics.

Comentários estão fechados.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More

Request Free Early Access

Join our waitlist and be the first one to see the powerful Insights Platform live.

You have successfully entered the waitlist!