KDD vs mineração de dados
KDD (Knowledge Discovery in Databases) é um campo da ciência da computação, que inclui as ferramentas e teorias para ajudar os humanos a extrair informações úteis e anteriormente desconhecidas (ou seja, conhecimento) de grandes coleções de dados digitalizados. KDD consiste em várias etapas, e Data Mining é uma delas. Data Mining é a aplicação de um algoritmo específico para extrair padrões dos dados. No entanto, KDD e Data Mining são usados de forma intercambiável.
O que é KDD?
Como mencionado acima, KDD é um campo da ciência da computação, que trata da extração de informações previamente desconhecidas e interessantes de dados brutos. KDD é todo o processo de tentar dar sentido aos dados, desenvolvendo métodos ou técnicas apropriadas. Este processo lida com o mapeamento de dados de baixo nível em outras formas que são mais compactas, abstratas e úteis. Isso é alcançado criando relatórios curtos, modelando o processo de geração de dados e desenvolvendo modelos preditivos que podem prever casos futuros. Devido ao crescimento exponencial dos dados, especialmente em áreas como negócios, o KDD se tornou um processo muito importante para converter essa grande riqueza de dados em inteligência de negócios, pois a extração manual de padrões tornou-se aparentemente impossível nas últimas décadas. Por exemplo,atualmente é usado para várias aplicações, como análise de rede social, detecção de fraude, ciência, investimento, manufatura, telecomunicações, limpeza de dados, esportes, recuperação de informação e principalmente para marketing. O KDD costuma ser usado para responder a perguntas como quais são os principais produtos que podem ajudar a obter altos lucros no próximo ano no Wal-Mart ?. Este processo possui várias etapas. Ele começa com o desenvolvimento de uma compreensão do domínio do aplicativo e do objetivo e, em seguida, cria um conjunto de dados de destino. Isso é seguido por limpeza, pré-processamento, redução e projeção de dados. O próximo passo é usar Data Mining (explicado abaixo) para identificar o padrão. Por fim, o conhecimento descoberto é consolidado por meio da visualização e / ou interpretação.esportes, recuperação de informação e principalmente para marketing. O KDD costuma ser usado para responder a perguntas como quais são os principais produtos que podem ajudar a obter altos lucros no próximo ano no Wal-Mart ?. Este processo possui várias etapas. Ele começa com o desenvolvimento de uma compreensão do domínio do aplicativo e do objetivo e, em seguida, cria um conjunto de dados de destino. Isso é seguido por limpeza, pré-processamento, redução e projeção de dados. O próximo passo é usar Data Mining (explicado abaixo) para identificar o padrão. Por fim, o conhecimento descoberto é consolidado por meio da visualização e / ou interpretação.esportes, recuperação de informação e principalmente para marketing. O KDD costuma ser usado para responder a perguntas como quais são os principais produtos que podem ajudar a obter altos lucros no próximo ano no Wal-Mart ?. Este processo possui várias etapas. Ele começa com o desenvolvimento de uma compreensão do domínio do aplicativo e do objetivo e, em seguida, cria um conjunto de dados de destino. Isso é seguido por limpeza, pré-processamento, redução e projeção de dados. A próxima etapa é usar Data Mining (explicado abaixo) para identificar o padrão. Por fim, o conhecimento descoberto é consolidado por meio da visualização e / ou interpretação. Ele começa com o desenvolvimento de uma compreensão do domínio do aplicativo e do objetivo e, em seguida, cria um conjunto de dados de destino. Isso é seguido por limpeza, pré-processamento, redução e projeção de dados. O próximo passo é usar Data Mining (explicado abaixo) para identificar o padrão. Por fim, o conhecimento descoberto é consolidado por meio da visualização e / ou interpretação. Ele começa com o desenvolvimento de uma compreensão do domínio do aplicativo e do objetivo e, em seguida, cria um conjunto de dados de destino. Isso é seguido por limpeza, pré-processamento, redução e projeção de dados. O próximo passo é usar Data Mining (explicado abaixo) para identificar o padrão. Por fim, o conhecimento descoberto é consolidado por meio da visualização e / ou interpretação.
O que é mineração de dados?
Conforme mencionado acima, a mineração de dados é apenas uma etapa no processo geral de KDD. Existem dois objetivos principais de mineração de dados, conforme definido pelo objetivo do aplicativo, e eles são a verificação ou descoberta. A verificação é verificar a hipótese do usuário sobre os dados, enquanto a descoberta encontra automaticamente padrões interessantes. Existem quatro tarefas principais de mineração de dados: agrupamento, classificação, regressão e associação (sumarização). Clustering é a identificação de grupos semelhantes de dados não estruturados. Classificação é aprender regras que podem ser aplicadas a novos dados. A regressão é encontrar funções com erro mínimo para modelar dados. E a associação procura relacionamentos entre variáveis. Em seguida, o algoritmo de mineração de dados específico precisa ser selecionado. Dependendo do objetivo, diferentes algoritmos, como regressão linear, regressão logística,árvores de decisão e Naïve Bayes podem ser selecionados. Em seguida, padrões de interesse em uma ou mais formas representacionais são pesquisados. Finalmente, os modelos são avaliados usando precisão preditiva ou compreensibilidade.
Qual é a diferença entre KDD e mineração de dados?
Embora os dois termos KDD e Data Mining sejam amplamente usados de forma intercambiável, eles se referem a dois conceitos relacionados, embora ligeiramente diferentes. KDD é o processo geral de extração de conhecimento de dados, enquanto Data Mining é uma etapa dentro do processo KDD, que lida com a identificação de padrões nos dados. Em outras palavras, Data Mining é apenas a aplicação de um algoritmo específico com base no objetivo geral do processo KDD.