Čo je K-znamená Clustering?

Data mining s algoritmom k-mean

Klastrovací algoritmus k- znamená prostriedok na dolovanie dát a nástroj na strojové učenie, ktorý sa používa na zoskupovanie pozorovaní do skupín súvisiacich pozorovaní bez predchádzajúcej znalosti týchto vzťahov. Odberom vzoriek sa algoritmus pokúša zobraziť, do ktorej kategórie alebo klastra patria údaje, pričom počet klastrov je definovaný hodnotou k.

Algoritmus k- znamená jeden z najjednoduchších techník zhlukovania a bežne sa používa v medicínskom zobrazovaní, biometrii a príbuzných oblastiach. Výhodou clusteringu je to, že informuje o vašich údajoch (pomocou svojej neupravenej formy) skôr, ako by ste museli poučiť algoritmus o údajoch na začiatku (pomocou kontrolovaného formulára algoritmu).

Niekedy sa označuje ako Lloydov algoritmus, najmä v kruhoch počítačov, pretože štandardný algoritmus bol prvýkrát navrhnutý Stuartom Lloydom v roku 1957. Termín "k-prostriedky" bol vytvorený v roku 1967 Jamesom McQueenom.

Ako funguje algoritmus k-prostriedky

Algoritmus k-mean je evolučný algoritmus, ktorý získava svoje meno z jeho spôsobu fungovania. Algoritmus zoskupuje pozorovania do skupín k , kde k je poskytnutý ako vstupný parameter. Potom priraďuje každému pozorovaniu zhluky na základe pozorovacej blízkosti k priemeru zhluku. Potom sa priemer klastra prepočíta a proces sa znova začne. Tu funguje algoritmus:

  1. Algoritmus ľubovoľne vyberá k body ako počiatočné klastrové centrá (prostriedky).
  2. Každý bod v množine údajov je priradený uzatvorenému klastra na základe euklidovskej vzdialenosti medzi každým bodom a každým stredom klastra.
  3. Každé centrum klastra sa prepočítava ako priemer bodov v tomto klastri.
  4. Kroky 2 a 3 zopakujte, kým sa zhluky zhromaždia. Konvergencia môže byť definovaná odlišne v závislosti od implementácie, ale zvyčajne to znamená, že pri krokoch 2 a 3 sa žiadne zmeny nezmenia, keď sa kroky 2 a 3 opakujú, alebo že zmeny nedávajú podstatný rozdiel v definícii klastrov.

Výber počtu klastrov

Jednou z hlavných nevýhod pre k- znamená zhlukovanie je skutočnosť, že musíte uviesť počet klastrov ako vstup do algoritmu. Navrhnutý algoritmus nie je schopný určiť vhodný počet klastrov a závisí od toho, že ho používateľ vopred identifikuje.

Napríklad, ak ste mali skupinu ľudí, ktoré majú byť zoskupené na základe binárnej pohlavnej identity ako muž alebo žena, volanie k- mean algoritmus pomocou vstupu k = 3 prinúti ľudí do troch klastrov, ak len dva, alebo vstup k = 2, by poskytol prirodzenejšie.

Podobne, ak by bola skupina jednotlivcov ľahko zoskupená na základe domáceho stavu a zavolali ste algoritmus k- mean so vstupom k = 20, výsledky by mohli byť príliš zovšeobecnené, aby boli účinné.

Z tohto dôvodu je často dobré experimentovať s rôznymi hodnotami k na určenie hodnoty, ktorá najlepšie vyhovuje vašim údajom. Tiež by ste mohli chcieť preskúmať použitie iných algoritmov dolovania údajov vo vašom úsilí o znalosti získané z počítača.