Machine Learning – Noções básicas e definição explicadas para principiantes e gestores

Explicamos as noções básicas da aprendizagem mecânica e porque é tão importante.

A aprendizagem mecânica é realmente nova?

A Aprendizagem Mecânica (Machine Learning daqui em diante ML) é uma sub-disciplina da inteligência artificial e tem sido objecto de investigação durante mais de 50 anos. Assim, o ML não é novo. No entanto, caiu no esquecimento muito rapidamente após a sua “descoberta” porque a desilusão rapidamente se espalhou após os sucessos iniciais. Simplesmente não foi possível encontrar as aplicações certas e os dados não estavam disponíveis na quantidade e qualidade necessárias.

Se o Machine Learning não é novo – porque é que está a ser hipnotizado?

É claro que os algoritmos ML têm sido muito melhorados nos últimos 50 anos. No entanto, esta não é a principal razão para a tendência de pôr estes algoritmos em prática agora.

Devido ao rápido aumento da capacidade de computação (e para todos os disponíveis), é agora economicamente viável fornecer as enormes capacidades de computação necessárias para tal. Graças às placas gráficas rápidas, os servidores estão agora disponíveis por apenas alguns euros por hora, o que há apenas alguns anos estaria no topo da lista de supercomputadores (e, por conseguinte, inacessível).

Paralelamente, a quantidade de dados disponíveis tem também aumentado – isto aplica-se tanto aos dados da própria empresa como aos dados públicos. Isto fornece uma excelente base para cartografar casos de utilização realmente significativos e úteis para as empresas. Estes incluem, por exemplo, a manutenção preditiva (ou seja, a estimativa do tempo de falha), o reconhecimento de textos falados e previsões de preços.

Mesmo que se esteja a desenvolver um hype a partir disto, que certamente será seguido (novamente) por uma grande desilusão, muitos modelos de negócio podem lucrar com isto ou mesmo ser mais desenvolvidos estrategicamente.

Compreender a aprendizagem da máquina para além das hipes

O que é um algoritmo?

Um algoritmo para computadores pode ser pensado como uma receita. Descreve exactamente que passos são executados um após o outro. Os computadores não compreendem receitas de culinária, mas linguagens de programação: Neles, o algoritmo é dividido em etapas formais (comandos) que o computador pode compreender.

Alguns problemas podem facilmente ser formulados como um algoritmo, por exemplo, contar de 1 a 100 ou verificar se um número é um número primo. Para outros problemas, isto é muito difícil, por exemplo, o reconhecimento da escrita ou do texto de palavras-chave. Aqui os procedimentos de aprendizagem de máquinas ajudam. Durante muito tempo, foram desenvolvidos algoritmos que permitem analisar os dados existentes e aplicar os conhecimentos derivados dos mesmos a novos dados.

Porque é que alguns algoritmos são chamados “aprendizagem”?

Um algoritmo de aprendizagem de máquinas tem muita liberdade, os chamados parâmetros. Simplificado, um parâmetro poderia ser utilizado, por exemplo, para colocar mensagens com a palavra “Trump” num contexto geográfico em relação à região da América do Norte. Tipicamente, os algoritmos Machine Learning utilizam muitas centenas, muitas vezes até centenas de milhares de parâmetros. O ajustamento dos parâmetros para obter os resultados correctos para os dados existentes chama-se aprendizagem.

Aprendizagem supervisionada – O que é isso?

Für das sogenannte “überwachte Lernen” werden bekannte Daten benötigt, die bereits die Logik beinhalten, die man gerne auf ein neues Datenset anwenden möchte.

Aus diesen Daten wird ein Trainings- und Testdatenset ausgewählt. Ersteres dient dazu, die Parameter im Algorithmus entsprechend einzustellen, während letzteres gebraucht wird, um die Performance des Algorithmus zu evaluieren. Hier kann man beispielsweise auch Qualitätsmetriken berechnen und den Trainingsprozess beenden, wenn die Ergebnisse als gut genug betrachtet werden (das kann unter Umständen lange dauern oder gar nicht passieren!).

Der Algorithmus lernt die Logik innerhalb dieses sogenannten Trainingssets. Ein so trainierter Algorithmus kann anschließend Daten, die eine bestimmte Ähnlichkeit zu dem Trainingsset aufweisen, mit der gelernten Logik klassifizieren – zum Beispiel anhand der vorgegebenen Kategorien Produkt gekauft/nicht gekauft oder Kündigung/Keine Kündigung.

Man muss bei einigen Schritten sehr gut aufpassen: So darf zum Beispiel der Algorithmus, wenn er mit einer Trainingsmenge übt, nicht einfach alles “auswendig” lernen, sondern muss die dahinterliegende Logik begreifen. Schafft man das nicht, heißt das Problem, vor dem man steht “Overfitting”.

Aprendizagem sem supervisão – O que é isso?

A aprendizagem não supervisionada é adequada à aprendizagem supervisionada se não houver dados conhecidos e estruturados logicamente para a prática. Algoritmos que utilizam aprendizagem sem supervisão podem, por exemplo, estruturar uma base de dados de clientes de acordo com diferentes grupos de clientes (segmentação de clientes). Há algoritmos que decidem por si próprios quantos aglomerados se formam e algoritmos que recebem o número de aglomerados.

Após este tipo de aprendizagem mecânica, segue-se novamente o trabalho manual e a criatividade humana é necessária para interpretar o resultado: Para os clusters encontrados agora têm de ser interpretados profissionalmente. Isto porque o algoritmo não fornece qualquer explicação sobre a razão pela qual estes clusters foram criados desta forma.

Outra possibilidade de aprendizagem não supervisionada é a chamada redução dimensional. Isto pode ser utilizado para descobrir as chamadas características de um conjunto de dados existente, ou seja, componentes em que os dados diferem realmente. Um exemplo disto poderia ser a descrição de artigos de vestuário, a cor seria então extraída como uma característica.

Reforço da aprendizagem – O que é isso?

O reforço da aprendizagem é actualmente um tipo de aprendizagem menos importante na economia, e é também um procedimento controlado. A ideia aqui é recompensar (e assim promover) o comportamento bem sucedido, suprimindo ao mesmo tempo o comportamento que tenha conduzido a resultados indesejáveis.

Por exemplo, se quisesse treinar um algoritmo para tocar por dinheiro em dez bandidos de um só braço (que funcionam “bem” de forma diferente), primeiro faria com que tocassem cinco vezes em cada máquina e depois mais frequentemente nas máquinas que produziram os maiores ganhos no primeiro ensaio. O algoritmo pode também jogar um pouco nas máquinas que produziram pouco ou nenhum ganho, porque isto poderia ter sido uma coincidência desfavorável (e improvável) nas primeiras cinco tentativas, e na realidade estas são as melhores máquinas.

Quantos algoritmos é que se podem aprender?

Há uma multiplicidade de diferentes métodos de aprendizagem, apenas se deve mencionar aqui o apoio a máquinas vectoriais e árvores de decisão como representantes da aprendizagem supervisionada.

Para cada um destes métodos, existem diferentes algoritmos para ajustar os parâmetros de modo a obter o maior acordo possível com os dados conhecidos. Estes algoritmos são os verdadeiros procedimentos de aprendizagem na aprendizagem mecânica. Exemplos são a descida gradual, a retropropagação e os Algoritmos Genéticos.

Dependendo da finalidade da aplicação, determinados algoritmos funcionam melhor ou menos bem. Isto também pode ser influenciado pelos dados. Algumas aplicações especiais requerem mesmo modificações nos próprios algoritmos. Para muitos casos, podem ser alcançados resultados muito bons com algoritmos padrão. Em casos individuais, contudo, pode ser necessário modificar um algoritmo ou desenvolver um dos seus próprios algoritmos.

Aprendizagem mecânica ainda significa, antes de mais nada: trabalho manual

Por mais automatizado que tudo isto pareça, os processos de aprendizagem da máquina ainda incluem muitas etapas de processo manual: Por exemplo, os dados conhecidos não estão muitas vezes disponíveis na qualidade de que realmente necessita. Por esta razão, os dados devem normalmente ser limpos no primeiro passo, no âmbito da chamada limpeza de dados.

Machine Learning é um método estatístico

Todos os três tipos de aprendizagem mecânica são procedimentos estatísticos, o que significa que apenas um elevado número de repetições conduz a bons resultados. Os computadores podem fazer este trabalho “estúpido” muito bem e, devido ao grande aumento da capacidade informática, não temos de esperar muito tempo pelos resultados.

Por detrás de um projecto de aprendizagem de máquinas bem sucedido está sempre uma equipa interdisciplinar

O Machie Learning torna os produtos e serviços mais fáceis de utilizar, os processos mais eficientes e as previsões mais fiáveis. Se a gestão define a utilização da aprendizagem de máquinas como parte da estratégia empresarial, a aprendizagem de máquinas – combinada com os dados certos – tem o poder de revolucionar todo o modelo empresarial.

Neste contexto, o actual hype que se tem desenvolvido em torno do ML é muito compreensível.

Com todas as possibilidades, não se deve esquecer: O ML não é uma panaceia. O factor decisivo é a qualidade dos dados, ou seja, a “forragem” do ML: Assim, “o lixo entra – o lixo sai” aplica-se especialmente ao ML. Além disso, o ML requer quantidades muito grandes de dados, que nem sempre estão disponíveis.

Os resultados produzidos pelo algoritmo ML são apenas tão bons quanto as pessoas que adquiriram e prepararam quantidades adequadas de dados com perguntas relevantes para a empresa nas suas cabeças e ajustaram repetidamente os parâmetros do algoritmo até se obter um resultado tecnicamente interpretável.

Em muitos casos não é a tecnologia que estabelece os limites do ML, mas sim a criatividade do povo. É essencial encontrar o caso de uso adequado para a empresa e depois desenhar iterativamente, utilizando todo o conhecimento de domínio existente que os seus próprios empregados trazem para a mesa. Os métodos de inovação centrados no cliente, tais como o pensamento de design e abordagens de protótipos magros dão um contributo importante para isto – também ao detectar falhas precocemente.

    Stephanie Fischer und Dr. Christian Winkler sind Gründer und Geschäftsführer von datanizing, einem in München ansässigen Unternehmen, das für Organisationen Strategien und konkrete Anwendungen mit künstlicher Intelligenz entwickelt, die im eigenen Betrieb nutz- und gewinnbringend eingesetzt werden können. Sie begleiten seit Jahren Unternehmen bei der Konzeption und Implementierung datengetriebener innovativer Lösungen im Bereich Machine Learning, Text Analytics und Big Data.

    Comentários estão fechados.

    This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More

    MoreThanDigital Newsletter
    Subscribe
    Join the #bethechange community
    close-image