Clustering hiérarchique vs clustering partiel

Le clustering est une technique d'apprentissage automatique pour analyser les données et les diviser en groupes de données similaires. Ces groupes ou ensembles de données similaires sont appelés grappes. L'analyse de cluster examine les algorithmes de clustering qui peuvent identifier automatiquement les clusters. Hiérarchique et Partiel sont deux de ces classes d'algorithmes de clustering. Les algorithmes de clustering hiérarchiques décomposent les données en une hiérarchie de clusters. Les algorithmes conditionnels divisent l'ensemble de données en partitions mutuellement disjointes.

Qu'est-ce que le clustering hiérarchique?

Les algorithmes de clustering hiérarchiques répètent le cycle de fusion de petits clusters en plus grands ou de division de plus grands clusters en plus petits. Dans les deux cas, il produit une hiérarchie de clusters appelée dendogramme. La stratégie de clustering agglomératif utilise l'approche ascendante de la fusion des clusters avec des clusters plus grands, tandis que la stratégie de clivage par division utilise l'approche top down de la scission en plus petits. En règle générale, l'approche gourmande est utilisée pour décider quels clusters plus grands / plus petits sont utilisés pour la fusion / division. La distance euclidienne, la distance de Manhattan et la similitude cosinus sont quelques-unes des mesures de similitude les plus couramment utilisées pour les données numériques. Pour les données non numériques, des métriques telles que la distance de Hamming sont utilisées. Il est important de noter que les observations réelles (instances) ne sont pas nécessaires pour le regroupement hiérarchique, car seule la matrice des distances est suffisante. Le dendogramme est une représentation visuelle des clusters, qui affiche très clairement la hiérarchie. L'utilisateur peut obtenir différents regroupements en fonction du niveau auquel le dendogramme est coupé.

Qu'est-ce que le clustering partiel?

Les algorithmes de clustering partitionnel génèrent diverses partitions, puis les évaluent selon un critère. Ils sont également appelés non hiérarchiques car chaque instance est placée dans exactement l'un des k groupes mutuellement exclusifs. Étant donné qu'un seul ensemble de clusters est la sortie d'un algorithme de clustering partitionnel typique, l'utilisateur doit saisir le nombre de clusters souhaité (généralement appelé k). L'un des algorithmes de clustering partitionnel les plus couramment utilisés est l'algorithme de clustering k-means. L'utilisateur doit fournir le nombre de clusters (k) avant de démarrer et l'algorithme lance d'abord les centres (ou centroïdes) des k partitions. En résumé, l'algorithme de regroupement k-means attribue ensuite des membres en fonction des centres actuels et réévalue les centres en fonction des membres actuels. Ces deux étapes sont répétées jusqu'à ce qu'une certaine fonction objectif de similarité intra-cluster et une fonction objectif de dissimilarité inter-cluster soient optimisées. Par conséquent, une initialisation sensible des centres est un facteur très important pour obtenir des résultats de qualité à partir d'algorithmes de clustering partitionnels.

Quelle est la différence entre le clustering hiérarchique et le clustering partiel?

Le clustering hiérarchique et partitionnel présente des différences clés dans le temps d'exécution, les hypothèses, les paramètres d'entrée et les clusters résultants. En règle générale, le clustering partitionnel est plus rapide que le clustering hiérarchique. Le clustering hiérarchique ne nécessite qu'une mesure de similitude, tandis que le clustering partiel nécessite des hypothèses plus fortes telles que le nombre de clusters et les centres initiaux. Le clustering hiérarchique ne nécessite aucun paramètre d'entrée, tandis que les algorithmes de clustering partiel nécessitent le nombre de clusters pour démarrer. Le clustering hiérarchique renvoie une division beaucoup plus significative et subjective des clusters, mais le clustering partitionnel donne exactement k clusters. Les algorithmes de clustering hiérarchiques conviennent mieux aux données catégorielles tant qu'une mesure de similarité peut être définie en conséquence.