Klasifikácia v dolovaní údajov

Klasifikácia je metóda získavania údajov, ktorá priraďuje kategórie ku zbierke údajov, aby pomohla pri presnejších predpovediach a analýzach. Taktiež nazývaný niekedy nazývaný Rozhodovací strom , klasifikácia je jednou z niekoľkých metód, ktoré majú za úlohu efektívne analyzovať veľké množiny údajov.

Prečo klasifikácia?

Veľké databázy sa stávajú normou v dnešnom svete "veľkých údajov". Predstavte si databázu s viacerými terabajtami dát - terabajt je jeden bilión bajtov dát.

Facebook samotný skrotiť 600 terabajtov nových dát každý deň (od roku 2014, keď naposledy ohlásil tieto špecifikácie). Hlavnou výzvou veľkých údajov je, ako to urobiť zmysel.

Úplný objem nie je jediný problém: veľké údaje majú tendenciu byť rôznorodé, nestrukturované a rýchlo sa meniace. Zvážte audio a video dáta, príspevky zo sociálnych médií, 3D dáta alebo geopriestorové dáta. Tento druh údajov nie je ľahko kategorizovaný ani organizovaný.

Na splnenie tejto výzvy sa vyvinula celá škála automatických metód na získavanie užitočných informácií, medzi ktoré patrí aj klasifikácia .

Ako funguje klasifikácia

Pri nebezpečenstve, že príliš ďaleko prejdem k tech-speak, poďme diskutovať o tom, ako funguje klasifikácia. Cieľom je vytvoriť súbor pravidiel klasifikácie, ktoré odpovedia na otázku, rozhodnú sa alebo predpovedajú správanie.Preto sa vytvorí súbor tréningových údajov, ktorý obsahuje určitý súbor atribútov, ako aj pravdepodobný výsledok.

Úlohou algoritmu klasifikácie je zistiť, ako dosiahne tento súbor atribútov jeho záver.

Scenár : Možno, že spoločnosť s kreditnou kartou sa pokúša zistiť, ktoré vyhliadky by mali dostať ponuku kreditnej karty.

Môže ísť o súbor tréningových údajov:

Výcvikové údaje
názov Vek rod Ročný príjem Ponuka kreditnej karty
John Doe 25 M $ 39.500 žiadny
Jane Doe 56 F $ 125,000 Áno

Stĺpce "prediktor" vek , pohlavie a ročný príjem určujú hodnotu predikčnej atribúty " Ponuka kreditnej karty" . V tréningovej množine je známy prediktorový atribút. Algoritmus klasifikácie sa potom snaží určiť, ako sa dosiahla hodnota prediktorového atribútu: aké vzťahy existujú medzi prediktormi a rozhodnutím? Vytvorí súbor predikčných pravidiel, zvyčajne vyhlásenie IF / THEN, napríklad:

AK (vek> 18 rokov alebo vek <75) A ročný príjem> 40 000 THEN Ponuka kreditnej karty = áno

Je zrejmé, že toto je jednoduchý príklad a algoritmus by potreboval oveľa väčší vzorkovací údaj než tu zaznamenané dve záznamy. Okrem toho pravdepodobnosť predikcie bude oveľa zložitejšia, vrátane podradených pravidiel na zachytenie podrobností o atribútoch.

Ďalej je algoritmu daná "predikčná sada" dát na analýzu, ale táto množina nemá predikčný atribút (alebo rozhodnutie):

Predictor Data
názov Vek rod Ročný príjem Ponuka kreditnej karty
Jack Frost 42 M $ 88.000
Mary Murrayová 16 F $ 0

Tieto údaje o prediktoroch pomáhajú odhadnúť presnosť pravidiel predpovedí a pravidlá sa potom upravia dovtedy, kým vývojár nepovažuje predpovede za efektívne a užitočné.

Každodenné príklady klasifikácie

Klasifikácia a ďalšie metódy dolovania dát sú za veľa našich každodenných skúseností ako spotrebiteľov.

Predpovede počasia môžu používať klasifikáciu na ohlásenie toho, či bude deň daždivý, slnečný alebo zakalený. Lekárska profesia môže analyzovať zdravotné podmienky na predpovedanie zdravotných výsledkov. Typ klasifikačnej metódy, Naive Bayesian, využíva podmienenú pravdepodobnosť kategorizácie nevyžiadaných e-mailov. Od detekcie podvodov až po ponuku produktov, klasifikácia je v zákulisí každý deň analyzovaním údajov a vytváraním predpovedí.