A principal diferença entre clustering e classificação é que clustering é uma técnica de aprendizado não supervisionado que agrupa instâncias semelhantes com base em recursos, enquanto a classificação é uma técnica de aprendizado supervisionado que atribui tags predefinidas a instâncias com base em recursos.
Embora o agrupamento e a classificação pareçam ser processos semelhantes, há uma diferença entre eles com base em seu significado. No mundo da mineração de dados, agrupamento e classificação são dois tipos de métodos de aprendizagem. Ambos os métodos caracterizam os objetos em grupos por um ou mais recursos.
CONTEÚDO
1. Visão geral e diferença-chave
2. O que é agrupamento
3. O que é classificação
4. Comparação lado a lado - agrupamento versus classificação na forma tabular
5. Resumo
O que é clustering?
Clustering é um método de agrupar objetos de forma que objetos com características semelhantes se juntem e objetos com características diferentes se separem. É uma técnica comum para análise estatística de dados para aprendizado de máquina e mineração de dados. A análise exploratória e generalização de dados também é uma área que usa clustering.
Figura 01: Clustering
O clustering pertence à mineração de dados não supervisionada. Não é um único algoritmo específico, mas é um método geral para resolver uma tarefa. Portanto, é possível obter clustering usando vários algoritmos. O algoritmo de cluster apropriado e as configurações de parâmetro dependem dos conjuntos de dados individuais. Não é uma tarefa automática, mas é um processo iterativo de descoberta. Portanto, é necessário modificar o processamento dos dados e a modelagem dos parâmetros até que o resultado atinja as propriedades desejadas. O clustering K-means e o clustering hierárquico são dois algoritmos de clustering comuns na mineração de dados.
O que é classificação?
A classificação é um processo de categorização que usa um conjunto de dados de treinamento para reconhecer, diferenciar e compreender objetos. A classificação é uma técnica de aprendizagem supervisionada em que um conjunto de treinamento e observações definidas corretamente estão disponíveis.
Figura 02: Classificação
O algoritmo que implementa a classificação é o classificador, enquanto as observações são as instâncias. O algoritmo K-Nearest Neighbor e algoritmos de árvore de decisão são os algoritmos de classificação mais famosos em mineração de dados.
Qual é a diferença entre clustering e classificação?
O agrupamento é um aprendizado não supervisionado, enquanto a Classificação é uma técnica de aprendizado supervisionado. Ele agrupa instâncias semelhantes com base em recursos, enquanto a classificação atribui tags predefinidas a instâncias com base em recursos. O clustering divide o conjunto de dados em subconjuntos para agrupar as instâncias com recursos semelhantes. Ele não usa dados rotulados ou um conjunto de treinamento. Por outro lado, categorize os novos dados de acordo com as observações do conjunto de treinamento. O conjunto de treinamento é rotulado.
O objetivo do agrupamento é agrupar um conjunto de objetos para descobrir se existe alguma relação entre eles, enquanto a classificação visa descobrir a qual classe um novo objeto pertence a partir do conjunto de classes predefinidas.
Resumo - Clustering vs Classificação
O armazenamento em cluster e a classificação podem parecer semelhantes porque os dois algoritmos de mineração de dados dividem o conjunto de dados em subconjuntos, mas são duas técnicas de aprendizado diferentes em mineração de dados para obter informações confiáveis de uma coleção de dados brutos. A diferença entre clustering e classificação é que clustering é uma técnica de aprendizado não supervisionado que agrupa instâncias semelhantes com base em recursos, enquanto a classificação é uma técnica de aprendizado supervisionado que atribui tags predefinidas a instâncias com base em recursos.
Cortesia de imagem:
1.”Cluster-2 ″ por Cluster-2.gif: trabalho derivado hellisp: (Domínio Público) via Wikimedia Commons 2.” Magnetismo”por John Aplessed - Trabalho próprio. (Domínio Público) via Wikimedia Commons