O conjunto de dados da flor iris é bastante comum em estudos de classificação. É um conjunto bem pequeno, composto por quatro variáveis (comprimento e largura das pétalas e sépalas) e a classificação da flor iris (Setosa. Versicolor e Virgínica). O conjunto possui informações de 150 flores.
Fonte: Wikipédia - Conjunto de dados flor iris
Utilizando um modelo de Regressão Logística e um Nomograma
Um nomograma é bastante útil quando se trata de verificar o efeito de características sobre a probabilidade de uma classificação. Ele deve ser utilizado para visualizar o resultado de um modelo classificador, podendo ser utilizado com Naive Bayes ou Regressão Logística.
Abaixo (Figura 1) temos um nomograma que mostra como as caracteristicas influenciam na probabildiade de uma flor íris ser to tipo setosa. Observe que o que mais influencia na probabilidade é a característica "comprimento da pétala. Quanto menor o comprimento da pétala, maior a probabilidade de ser setosa.
Figura 1
No caso da probabilidade da flor ser do tipo versicolor, a caracteristica que mais influencia na probabilidade de ser deste tipo, é a largura da sépala (Figura 2), no entanto, quanto menor a largura da sépala, maior a probabilidade de ser do tipo versicolor. Observe que o comprimento e a largura da pétala também possuem bastante influencia sobre esta probabilidade.
Figura 2
O tipo virgínica também é bastante influenciada pelo comprimento da pétala (Figura 3), porém observe as outras caracteristicas. A largura da pétala, por exemplo, influencia mais que a largura da sépala, sendo que não ocorre o mesmo com a íris setosa e nem versicolor.
Figura 3
Usando uma Árvore de Decisão
Abaixo (Figura 4) temos uma distribuição de probabilidades em uma árvore de decisão.
Figura 4
A primeira classificação escolhida pelo algoritmo foi Iris-setosa, essa escolha náo possui nenhum motivo especial. A próxima escolha seria a da característica que mais influencia na classificação como Iris-setosa, que no no caso foi o comprimento da pétala (assim como ocorreu na visualização usando Regressão logística+Nomograma), e o valor do comprimento escolhido como sendo o que mais causa efeito sobre o resultado foi 1,9.
Para valores de comprimento da pétala menores ou iguais a 1,9, temos 100% de chance de ser Iris-setosa, e para valores maiores temos 50% de ser uma Iris-versicolor.
O que mais influencia na probaiblidade de ser Iris-versicolor é a largura da pétala (assim como ocorreu na visualização usando Regressão logística+Nomograma). E neste caso, temos a largura da pétala igual a 1,7 como sendo o valor de maior influência sobre a classificação. Destas 100 iris, as que tem valores abaixo ou iguais a 1,7 possuem 90,7% de serem do tipo Iris-versicolor, e com valores acima de 1,7 possuem 97,8% de chance de serem Iris-virginica.
Observe que a classificação como Iris-virgínica tem com principal característica influenciadora a largura da pétala maior que 1,7. Essa classificação produzida pela árvore de decisão é mais precisa levando em consideração os dados analisados, porém pode ser menos eficiente pra generalizações.