A normalização é um método geralmente aplicada como parte da preparação de dados para o aprendizado de máquina. O objetivo da normalização é mudar os valores de um conjunto de números para uma escala comum, sem distorcer as diferenças nos intervalos de valores nem perder informações, colocando os valores em um intervalo de 0 a 1.
As vezes temos valores como os da tabela abaixo, que em muitas situações, como no caso de treinamento em aprendizado de máquina, é necessário que estes valores estejam em uma mesma escala. Podemos observar que os valores das idades estão muito distantes dos valores dos ganhos, podendo dar a entender, em certos processoes de modelagem ou treinamentos, que os valores de ganhos são mais importantes que os valores de idades.
Distribuição de idades e ganhos mensais de quatro pessoas.
Uma forma bastante comum utilizada para normalizar dados é a aplicação da fórmula Min-Max dada por:
Onde X_Min é o menor valor do conjunto, X_Max é o maior valor, X é valor que queremos normalizar e X_n é o valor normalizado.
Para mostrar um exemplo de aplicação da fórmula, vamos tomar a tabela acima e calcular o valor normalizado relativo a idade de Carlos dentro do conjunto Idades. O valor normalizado da idade 25 de Carlos seria:
Os demais valores seriam calculados da mesma forma, lembrando que no caso da coluna Ganho, os valores mínimo e máximo seriam 1500 e 4500 respectivamente.
Ver Mais em: Normalização