Quando falamos de criação da internet lembramos dos modens da US ROBOTICS que utilizam telefonia discada e logo nos vêem a mente aquele famoso barulhinho (infelizmente não vai dar para reproduzir no texto, rssss)
A internet já tem 3 bilhôes de usuários (segundo a onu) em todo o mundo, e cada um deles é um gerador de conteúdo. Nós produzimos e coletamos mais informações do que nunca. São artigos, desenhos, poemas, fotos, vídeos, podcasts, pesquisas e posts de cada usuário da internet. Para se ter uma ideia, estima-se que 90% da informação gerada na história foi criada nos últimos 2 anos (de acordo com a science Daily).
Agora que temos esta quantidade de dados imensa, “só” nos resta entendê-la. Temos que filtrar o que não é importante para poder enxergar e aprender com o relevante, e este é grande desafio. Mas, com essa enxurrada de informação, como podemos saber o que jogamos fora e o que analisamos?
É ai que entra o famoso machine learning, ou “aprendizado de máquina”. Esta área da ciência da computação trata justamente disso: elaborar sistemas capazes de analisar e aprender rapidamente aquilo que os humanos demorariam muito tempo.
Quer um exemplo? Imagine que você quer criar um filtro anti-spam. Uma das primeiras regras seria bloquear algumas palavras claramente características em spams, como “viagra”, e anexos suspeitos, como arquivos de extensão “.exe”. Talvez também links para download de outros arquivos executáveis. Em seguida, você iria filtrar e-mails que tentam imitar mensagens oficiais de bancos, mas que deixasse passar os comunicados legítimos. Tem também os vigaristas que se dizem príncipes árabes, e outras histórias absurdas para arrancar dinheiro de você. Ah, não se esqueça dos e-mails marketing de lojas das quais você nunca ouviu falar – e nem quer.
No final das contas, a lista de regras e exceçōes fica tão grande que se torna difícil de gerenciar. A cada novo e-mail legítimo que fica preso, você precisa mexer nas regras de novo. É um caos.
Usando machine learning você não precisa dizer que e-mails com a palavra “viagra” provavelmente são spam. A ideia por trás dessas técnicas é identificar características comuns em várias mensagens que você, e outras centenas de pessoas, marcaram como spam no passado, sem explicitamente apontar quais são estas características.
O sistema deve ser capaz de entender “todos estes spams têm em comum a palavra ‘viagra’. Acho que vou barrar”. Ele aprende sozinho, baseado no que o seus usuários humanos dizem.
Machine Learning tem inúmeras aplicaçōes: processamento de imagens (como as tags automáticas nas fotos do Facebook), reconhecimento de voz, carros que dirigem sozinhos entre outros vários… há, até mesmo dicas de compras, dicas de videos no youtube e por aí vai!
E olha que massa, a Harvard Business Review chegou a dizer que o Data Scientist é a profissão mais sexy do século 21 !
Deixe um comentário