Entropia
Na ciência de dados, a entropia é uma medida que quantifica a incerteza ou a desordem em um conjunto de dados. Essa métrica é frequentemente utilizada em problemas de aprendizado de máquina, especialmente em algoritmos de árvores de decisão, como o algoritmo de classificação conhecido como Árvore de Decisão de Shannon.
A entropia é baseada na teoria da informação e é calculada usando a fórmula:
Vamos usar um exemplo simples para calcular a entropia. Suponha que temos um conjunto de dados que consiste em 10 exemplos, divididos em duas classes: A e B. O conjunto de dados tem a seguinte distribuição:
6 exemplos pertencem à classe A.
4 exemplos pertencem à classe B.
Vamos calcular a entropia usando a fórmula anterior.
Quanto mais próximo o valor da entropia estiver de 0, menor será a incerteza no conjunto de dados, e quanto mais próximo de 1, maior será a incerteza ou a desordem. No caso acima, o valor aproximado da entropia é de 0.966 o que mostra uma alto grau de desordem no conjunto de dados. A entropia é útil para determinar a relevância de atributos, ajudando a selecionar as melhores divisões para separar os dados de forma eficiente durante o treinamento do modelo.
Ganho de Informação
O ganho de informação é uma medida de quanto o conhecimento do atributo reduz a incerteza em torno dos valores de saída da classe. Os atributos com maior ganho de informação são mais importantes do que os atributos com menor ganho de informação.
O ganho de informação pode ser usado para selecionar atributos informativos, que são os atributos que fornecem mais informação sobre a classe de saída. É calculado como a diferença entre a entropia da classe de saída antes e depois do atributo ter sido considerado. Os atributos com maior ganho de informação são mais importantes do que os atributos com menor ganho de informação.
Por exemplo, considere um conjunto de dados de pacientes com câncer de mama. A classe de saída é se o paciente tem câncer de mama ou não. Um atributo pode ser a idade do paciente. A entropia da classe de saída antes do atributo ter sido considerado é 0,7213. Depois de considerar o atributo, a entropia da classe de saída é 0,2584. A diferença entre essas duas entropias é 0,4629. Portanto, o ganho de informação do atributo idade é 0,4629.
A fórmula do Ganho de Informação é dada por:
Vamos utilizar um exemplo para ilustrar o cálculo do Ganho de Informação. Suponha que temos um conjunto de dados X com 100 exemplos, onde cada exemplo possui uma característica A (vermelho ou azul) e uma B (pequeno ou grande), e uma Classe (positiva ou negativa). A distribuição dos dados é a seguinte:
50 exemplos têm A = vermelho e pertencem à classe positiva
20 exemplos têm A = vermelho e pertencem à classe negativa
10 exemplos têm A = azul e pertencem à classe positiva
20 exemplos têm A = azul e pertencem à classe negativa
40 exemplos têm B = pequeno e pertencem à classe positiva
10 exemplos têm B = pequeno e pertencem à classe negativa
20 exemplos têm B = grande e pertencem à classe positiva
30 exemplos têm B= grande e pertencem à classe negativa
Agora, queremos calcular o Ganho de Informação ao dividir o conjunto de dados X usando a característica A.
Primeiramente, vamos calcular a entropia inicial H(X). Observe que existem 60 dados da classe positiva e 40 da classe negativa.
Agora, calculamos a entropia após a divisão usando a característica A:
Um ganho de informação é de 0,078 que é uma ganho baixo. Isso significa que o atributo não fornece muita informação sobre a classe de saída. Vamos verificar a característica B aplicando o mesmo processo acima, não precisamos mais calcular H(X) pois já foi calculado. (Efetue o cálculo você mesmo, colocarei aqui somente o resultado final do cálculo🙂)
Logo, o atributo B (pequeno ou grande) é melhor que o atributo A (vermelho ou azul) em termos de fornecimento de informações sobre o conjunto X de dados.