Em 1970, Seppo Linnainmaa introduziu o modo reverso de diferenciação automática (AD). O objetivo era calcular eficientemente a derivada de uma função composta diferenciável que pode ser representada como um gráfico. Mais tarde, David E. Rumelhart, Ronald J. Williams e Geoffrey Hinton exploraram o algoritmo backpropagation para redes neurais multi-níveis (multi-layer neural networks).
Geoffrey Hinton é visto como o "Padrinho do Aprendizado Profundo". O grande marco de reconhecimento de imagem veio por meio do algoritmo AlexNet, projetado por seu aluno Alex Krizhevsky. Ele desenhou um Deep Learning para o desafio Imagenet em 2012 que tinha como objetivo fazer o reconhecimento automático de imagens. Esse algoritmo ajudou a revolucionar o campo da visão computacional porque até então, os algoritmos usavam técnicas tradicionais de machine learning. E, a partir do AlexNet, foi possível reduzir em 10% o erro do classificador. Note pela figura abaixo que após a divulgação do AlexNet em 2012, a área passou a ser dominada por DeepLearning (pontos em laranja).

Em 2012, o algoritmo AlexNet obteve 10% a menos na taxa de erro (ponto laranja em 2012),
o que fez com que, a partir dali, as aplicações de reconhecimento de imagem passassem a
utilizar DeepLearning
Tudo isso só foi possível graças a duas tendências:
- Volume de dados cada vez maior: o volume de dados criados nos últimos dois anos é maior do que a quantidade produzida em toda a história da humanidade.
- Capacidade de processamento: em 1998, o treino de uma rede neural com 50 mil registros e 50 atributos demorava 2 semanas. Hoje, treinamos modelos de Deep Learning na Neurotech com 12 milhões de registros e 5.000 variáveis em 1 hora
O TREINAMENTO DA MÁQUINA EM DEEP LEARNING
Para poder dar resultados em Machine Learning ou em Deep Learning, a máquina precisa ser treinada para pensar com um humano. Isso é feito com a inclusão de dados para serem processados pelas redes neurais artificiais, algoritmos criados para reconhecer padrões e classificar informações, assim como o cérebro faz. Desse modo, o sistema vai "treinar" com dados. Quanto mais dados e quanto mais relevantes eles forem, melhores serão os resultados do algoritmo.
É bom dizer que, em Deep Learning, o treinamento da máquina requer um volume maior de dados – e, por isso, é uma técnica mais indicada para quem já atua com Big Data, em geral médias e grandes empresas. Por outro lado, com a alta capacidade de processamento dessa tecnologia, os dados podem ser brutos, sem tanta necessidade de pré-processamento de dados como as técnicas de Machine Learning precisam.