Weka - Ferramenta para Mineração de Dados

Weka - Ferramenta para Mineração de Dados

        Pacote de algoritmos para mineração de dados na área de Inteligência Artificial com recursos abrangentes.

 

Weka é um pacote desenvolvido pela Universidade de Waikato, em 1993, com o intuito de agregar algoritmos para mineração de dados na área de Inteligência Artificial. O software é licenciado pela General Public License sendo, assim, possível a alteração do seu código-fonte. Weka é elaborado em linguagem Java.

Possui uma série de heurísticas para mineração de dados relacionadas à classificação, regressão, clusterização, regras de associação e visualização, entre elas: NaiveBayes, Linear Regression, IB1, Bagging, LogistBoot, Part, Ridor, ID3 e LMT.

Por se tratar de um pacote, contém 10 bases de dados prontas para serem mineradas e testadas. A visualização das Árvores de Decisões já ocorre com a poda, e a Matriz de Confusão é apresentada apontando os erros e acertos considerados pelo sistema.

O download é rápido e simples, mas vale ressaltar que para que uma base de dados seja carregada no software, é necessário que o arquivo esteja no formato .arff, formato de leitura para o Weka.

COMO UTILIZAR O WEKA

Após a formatação da sua base de dados, clique em Open File para selecionar a base de dados que deseja carregar. Você terá a opção de visualizar, em forma gráfica, como está a distribuição das classes da sua base de dados.

Clique, na aba superior, em Classify. Escolha em Choose a heurística que deseja testar. Selecione na caixa Test Options uma das opções: Use Training Set (Estabeler Treinamento de Uso), Supplied Test Set (Estabeler Teste Fornecido), Cross Validation (Validação Cruzada), Percentage Split (Divisão da Porcentagem). Estas são opções para determinar o tipo de teste que deseja realizar. Clique em Start e aguarde o resultado.

O tempo de processamento das heurística varia de acordo com: o tipo de heurística que você selecionar, a quantidade escolhida para validação cruzada e o tamanho da sua base de dados.

Por exemplo, uma base de dados, com 8100 instâncias (linhas) e com a opção de validação cruzada de 10 partições, faz a mineração dos dados da seguinte forma: divide as 8100 linhas em 10 pedaços de 810. O software treina 9 desses pedaços e testa 1 deles. Esse processo repete-se 10 vezes.

Assim sendo, a mineração pode levar alguns segundos, como levar algumas horas para que o processo seja completo.

Processo de Extração do Conhecimento

O processo de Extração do Conhecimento é composto por cinco etapas:

Seleção: etapa de escolha da base de dados a ser analisada.
Pré-processamento: etapa de “limpeza” dos dados, ou seja, reduzir discrepâncias de valores ruidores e corrigir inconsistências.
Transformação: transformação de dados, estes são modificados ou transformados em formatos apropriados à mineração, que pode por agregação, generalização, normalização, construção de atributos ou redução de dados.
Mineração de dados: etapa de utilização de técnicas de algoritmos. É nesta etapa que os testes realizados com o Weka são obtidos.
Interpretação: etapa de análise dos resultados obtidos por meio da mineração dos dados, e a partir dos quais se adquire o conhecimento.

Excelente software para analistas da informação, profissionais da área de informática ou áreas relacionadas que necessitem minerar e extrair conhecimentos.

 

Nossa Opinião

Acima você conferiu uma descrição completa sobre o Weka e suas funcionalidades, saiba agora o que achamos dele

O Weka se destaca como a ferramenta mais utilizada para mineração de dados. E não é para menos, pois traz uma lista completa de heurísticas para que o usuário possa tratar os dados de sua base.

O usuário do software necessita ter um conhecimento intermediário de mineração de dados e de informática, visto que, apesar de uma interface simples e fácil de utilizar, a mineração dos dados requer algumas características específicas. Alguns detalhes, como saber qual das classes da sua base de dados é a determinante, são primordiais. Caso você não defina isto corretamente, carregará uma classe que não lhe oferece o verdadeiro resultado para análise.

Nunca é demais reforçar que cada base de dados tem suas especificidades e características. Desta forma, pode-se confirmar que a falta de conhecimento de algoritmos prejudica na utilização do Weka, já que você dispõe de dezenas de heurísticas e deve ter noção de qual delas é melhor ou pior para a mineração dos seus dados.

Em suma, o Weka é uma ferramenta indispensável para profissionais que trabalham com Inteligência Artificial, ou aqueles que necessitam traçar o perfil de um consumidor. Por exemplo, dependendo dos dados da sua base, você obtém as combinações possíveis para determinar características essenciais do consumidor