Hiërarchisch versus gedeeltelijke clustering

Clustering is een machine learning-techniek voor het analyseren van gegevens en het verdelen in groepen van vergelijkbare gegevens. Deze groepen of sets van vergelijkbare gegevens worden clusters genoemd. Clusteranalyse kijkt naar clusteralgoritmen die clusters automatisch kunnen identificeren. Hierarchical en Partitional zijn twee van dergelijke klassen clusteringalgoritmen. Hiërarchische clusteringalgoritmen splitsen de gegevens op in een hiërarchie van clusters. Paritional-algoritmen verdelen de gegevensset in onderling gescheiden partities.

Wat is hiërarchische clustering?

Hiërarchische clusteringalgoritmen herhalen de cyclus van het samenvoegen van kleinere clusters in grotere clusters of het verdelen van grotere clusters in kleinere clusters. Hoe dan ook, het produceert een hiërarchie van clusters die een dendogram worden genoemd. Agglomeratieve clusteringstrategie maakt gebruik van de bottom-upbenadering van het samenvoegen van clusters met grotere, terwijl splitsende clusteringstrategie de top-downbenadering gebruikt van het splitsen in kleinere. Doorgaans wordt de hebzuchtige benadering gebruikt om te beslissen welke grotere / kleinere clusters worden gebruikt voor samenvoegen / delen. Euclidische afstand, Manhattan-afstand en cosinus-overeenkomst zijn enkele van de meest gebruikte metrieken van overeenkomst voor numerieke gegevens. Voor niet-numerieke gegevens worden metrieken zoals de Hamming-afstand gebruikt. Het is belangrijk op te merken dat de feitelijke waarnemingen (instanties) niet nodig zijn voor hiërarchische clustering, omdat alleen de matrix van afstanden voldoende is. Dendogram is een visuele weergave van de clusters, die de hiërarchie heel duidelijk weergeeft. De gebruiker kan verschillende clustering verkrijgen, afhankelijk van het niveau waarop het dendogram wordt gesneden.

Wat is gedeeltelijke clustering?

Partiële clusteringalgoritmen genereren verschillende partities en evalueren ze vervolgens op basis van een criterium. Ze worden ook niet-hiërarchisch genoemd omdat elke instantie precies in een van de k elkaar uitsluitende clusters wordt geplaatst. Omdat slechts één set clusters de uitvoer is van een typisch partieel cluster-algoritme, moet de gebruiker het gewenste aantal clusters invoeren (meestal k genoemd). Een van de meest gebruikte partiële cluster-algoritmen is het k-middel-cluster-algoritme. De gebruiker moet het aantal clusters (k) opgeven voordat hij begint en het algoritme initieert eerst de centra (of centroïden) van de k-partities. Kort samengevat wijst k-middel clusteringalgoritme leden toe op basis van de huidige centra en schatten centra opnieuw op basis van de huidige leden. Deze twee stappen worden herhaald totdat een bepaalde objectieve functie binnen een clusterovereenkomst en een objectieve functie tussen verschillende clusters zijn geoptimaliseerd. Daarom is verstandige initialisatie van centra een zeer belangrijke factor bij het verkrijgen van kwaliteitsresultaten van partiële clusteralgoritmen.

Wat is het verschil tussen hiërarchische en gedeeltelijke clustering?

Hiërarchische en partiële clustering hebben belangrijke verschillen in looptijd, aannames, invoerparameters en resulterende clusters. Meestal is partiële clustering sneller dan hiërarchische clustering. Hiërarchische clustering vereist slechts een gelijkenismaat, terwijl partiële clustering sterkere veronderstellingen vereist, zoals het aantal clusters en de initiële centra. Hiërarchische clustering vereist geen invoerparameters, terwijl partiële clusteringalgoritmen vereisen dat het aantal clusters wordt gestart. Hiërarchische clustering geeft een veel betekenisvollere en subjectievere verdeling van clusters terug, maar partiële clustering resulteert in precies k clusters. Hiërarchische clusteringalgoritmen zijn geschikter voor categorische gegevens, zolang een gelijkheidsmaat dienovereenkomstig kan worden gedefinieerd.