Esta seção tem o objetivo de apresentar as principais tarefas para a construção de um sistema de aprendizagem de máquina, abordando a extração de características, a construção da base de dados e do classificador, para, por último, mostrar como o sistema aprende e realiza previsões. Será utilizado o algoritmo Naive Bayes para exemplificar o processo de aprendizagem e classificação.
Algoritmo Naive Bayes
É bastante utilizado para classificação de texto e possui um forte fundamento estatístico, utilizando vários conceitos de probabilidade, sendo baseado principalmente no Teorema de Bayes. Para maiores detalhes sobre seu funcionamento e toda sua fundamentação teórica, visite a seção de links e veja o artigo “Mineração de dados na prática”.
Extração de características
O primeiro passo para ensinar um computador a identificar padrões é a etapa de extração de características, que consiste em analisar cada um dos objetos existentes dentro do sistema e extrair aquilo que os diferencia e é específico de cada um. Para exemplificar, vamos utilizar as imagens dos personagens Homer e Bart do desenho animado Os Simpsons, as quais são mostradas na Figura 1.
Com base nelas, precisamos identificar os atributos únicos de cada personagem com o objetivo de selecionar características únicas. Para o Homer podemos definir o formato da cabeça oval, os fios de cabelo, o tamanho da barriga, a barba, a calça azul claro, a camisa branca e o sapato preto.
Por outro lado, para o Bart podemos selecionar o formato da cabeça e cabelo, a camisa laranja, o calção e o sapato azul. Como podemos notar, essas características são particulares de cada personagem e estão presentes na maioria das imagens.
Vale também lembrar que, dependendo do tipo de aplicação, serão necessárias centenas ou até milhares de objetos (imagens) para que o processo de extração de características seja significativo.
Figura 1. Características do Homer e Bart
O objetivo de mostrar esse tipo de situação é para o leitor entender que o processo de reconhecimento de padrões é complexo e são necessárias várias técnicas para tentar atingir um desempenho melhor.
Fonte: (Site DevMedia)
Bons Estudos!!