Definovanie regresného štatistického modelu

Regresné analýzy vzťahov medzi premennými

Regresia je metóda dolovania dát, ktorá sa používa na predpovedanie rozsahu číselných hodnôt (nazývaných tiež kontinuálne hodnoty ), daných konkrétnym súborom údajov. Napríklad regresia môže byť použitá na predpovedanie nákladov na produkt alebo službu vzhľadom na iné premenné.

Regresia sa používa vo viacerých odvetviach na plánovanie podnikania a marketingu, finančné prognózy, environmentálne modelovanie a analýzu trendov.

Regresie Vs. klasifikácia

Regresie a klasifikácia sú techniky dolovania dát, ktoré sa používajú na riešenie podobných problémov, ale často sú zmätené. Obe sa používajú v predikčnej analýze, ale regresia sa používa na predpovedanie číselnej alebo kontinuálnej hodnoty, zatiaľ čo klasifikácia priraďuje údaje do diskrétnych kategórií.

Napríklad regresia by sa použila na predpovedanie hodnoty domu na základe jeho polohy, štvorcových stôp, ceny pri poslednom predaji, ceny podobných domov a iných faktorov. Klasifikácia by bola v poriadku, ak by ste chceli namiesto toho usporiadať domy do kategórií, ako je napríklad chodnosť, veľkosť veľa alebo kriminalita.

Typy regresných techník

Najjednoduchšia a najstaršia forma regresie je lineárna regresia používaná na odhad vzťahu medzi dvoma premennými. Táto technika používa matematický vzorec priamky (y = mx + b). Jednoducho povedané, to jednoducho znamená, že vzhľadom na graf s Y a osou X je vzťah medzi X a Y rovnou čiarkou s malými odchýlkami. Môžeme napríklad predpokladať, že vzhľadom na nárast počtu obyvateľov by sa výroba potravín mala zvyšovať rovnakou rýchlosťou - to si vyžaduje silný, lineárny vzťah medzi týmito dvomi číslami. Ak si to chcete predstaviť, zvážte graf, v ktorom os Y vysleduje nárast počtu obyvateľov a os X vysleduje výrobu potravín. Keď hodnota Y stúpne, hodnota X sa zvýši rovnakou rýchlosťou a vzťah medzi nimi sa rovná.

Pokročilé techniky, ako napríklad viacnásobná regresia, predpovedajú vzťah medzi viacerými premennými - napríklad existuje vzťah medzi príjmom, vzdelaním a tam, kde sa rozhodne žiť? Pridanie viacerých premenných výrazne zvyšuje zložitosť predikcie. Existuje niekoľko typov viacnásobných regresných techník vrátane štandardných, hierarchických, setwise a postupných, každý s vlastnou aplikáciou.

V tomto bode je dôležité pochopiť, čo sa snažíme predpovedať (závislú alebo predpokladanú premennú) a údaje, ktoré používame na predikciu (nezávislé alebo prediktórne premenné). V našom príklade chceme predpovedať miesto, kde sa rozhodne žiť ( predpokladaná premenná) daného príjmu a vzdelania (oba prediktórne premenné).