data mining

Data mining (dolovanie z dát) je veda a umenie extrahovania skrytých hodnotných informácií z veľkých objemov dát, ktoré sa použijú pri tvorbe efektívnych rozhodnutí. Data mining je spôsob učenia sa z minulosti tak, aby sa v budúcnosti prijímali lepšie rozhodnutia. Data mining umožňuje premeniť reaktívnu organizáciu na proaktívnu. Firmy, ktoré nevyužívajú svoje najhodnotnejšie aktívum - dáta a v nich ukryté informácie, budú porazené konkurenciou používajúcou stratégie vyvinuté na základe extrahovania informácií z ich dát.

Data mining, OLAP (On Line Analytical Processing) a Reporting sú tri základné komponenty Business Intelligence (podnikového spravodajstva):

Postavenie data mining-u v business intelligence

Data mining má z komponentov Business Intelligence najvyššiu pridanú hodnotu, pre svoju zložitosť sa však stále nevyužíva naplno.


Data mining-ové úlohy

Data mining možno použiť na riešenie tisícov rôznych problémov. Podľa povahy problému ich však možno zoskupiť do 7 skupín úloh:

Klasifikácia
Podstatou klasifikácie je zaraďovanie objektov do kategórií na základe cieľovej premennej. Každý objekt je charakterizovaný množinou premenných, z ktorých je jedna cieľová premenná. Cieľom je nájsť model, ktorý opisuje cieľovú premennú ako funkciu vstupných premenných (prediktorov). Trénovanie klasifikačného modelu vyžaduje znalosť hodnôt cieľovej premennej a prediktorov, typicky sú to historické dáta.

Regresia
Regresná úloha je podobná klasifikačnej s hlavným rozdielom, že cieľová premenná je číselná. Regresný model môže predpovedať napr. rýchlosť vetra v závislosti od teploty, tlaku a vlhkosti alebo cenu bytu v závislosti od plochy, lokality, vybavenia a pod.

Prognózovanie
Prognózovanie odpovedá napr. na otázky: Aký bude obrat podniku o mesiac? Aké budú ceny akcií o týždeň? Vstupné dáta predstavujú časový rad - postupnosť čísel, zaznamenaných v čase, ktorých hodnoty sú vzájomne závislé. Prognózovanie sa zaoberá trendmi, cyklami a filtrovaním šumu.

Analýza sekvencií
Analýza sekvencií sa používa na nájdenie vzorov v radoch pozostávajúcich z diskrétnych hodnôt (alebo stavov). Napr. sekvencia webovských kliknutí pozostáva z radu webovských adries. Sekvencia je podobná časovému radu s tým rozdielom, že sekvencia obsahuje diskrétne stavy a časový rad obsahuje spojité čísla.

Zhlukovanie
Zhlukovanie sa používa na identifikáciu prirodzených skupín objektov charakterizovaných určitými premennými. Objekty vnútri zhluku sú si podľa posudzovaných premenných podobné, medzi zhlukmi rôzne.

Analýza odchýlok
Umožňuje nájdenie veľmi zriedkavých objektov, ktoré sú veľmi odlišné od ostatných. Typicky sa používa pri odhaľovaní podvodov a detekciu výrobných chýb. Napr. v bankovníctve sa bez vopred formulovanej definície podozrivej operácie z miliónov operácií klientov identifikuje pár desiatok takých, ktoré sa od zvyšných (zoskupených do niekoľkých zhlukov) pri použití viacerých premenných (napr. obrat, typ operácie, konštantný symbol, čas od zadania po jej splatnosť atď.) výrazne odlišujú.

Asociácia
Typickým asociačným problémom je analýza nákupného koša, teda identifikácia produktov, ktoré sa často predávajú spoločne. Cieľom je odhalenie asociačných pravidiel (ak zákazník kúpi A a B, potom s pravdepodobnosťou 60 % kúpi aj C). Získané pravidlá možno využiť viacerými spôsobmi: na krížový marketing, cielenú ponuku, optimalizáciu katalógu a štruktúry obchodu, ale aj na segmentáciu zákazníkov s rovnakým správaním sa pri nakupovaní určenom asociačnými pravidlami.


Data mining-ové techniky

Data mining využíva metódy štatistiky, strojového učenia a umelej inteligencie. Data mining-ové techniky možno rozdeliť do 2 veľkých skupín:

Riadené (Supervised/Directed)
Jedna premenná, ktorá sa nazýva cieľová, riadi proces učenia tak, aby ostatné premenné (prediktory), čo najlepšie predpovedali (v trénovacej vzorke známu) hodnotu cieľovej premennej. Neriadené (Unsupervised/Undirected)
Všetky premenné v modely sú rovnocenné, žiadna z nich neriadi proces učenia. Výber premenných je iba na analytikovi, data mining-ový algoritmus nepovie, ktoré premenné sú dôležité a ktoré nie. Cieľom je odhaľovanie znalostí (knowledge discovery).

Metodológia data mining-u

Najrozšírenejšia metodológia na realizáciu data mining-ových projektov je CRISP-DM:

Data mining - CRISP-DM

Business Understanding
Úvodná fáza je zameraná na pochopenie cieľov data mining-ového projektu z podnikového pohľadu, následné definovanie data mining-ového problému a plánu na dosiahnutie cieľov.

Data Understanding
Fáza pochopenia dát začína prvotným zberom dát a pokračuje aktivitami na oboznámenie sa s dátami, identifikovanie problémov kvality dát prípadne aj formulovanie hypotéz.

Data Preparation
Fáza prípravy dát predstavuje najnáročnejšiu fázu a zahŕňa všetky aktivity smerujúce k vytvoreniu dát, ktoré vojdú do modelov. Úlohy zahŕňajú výber databáz, tabuliek, záznamov, premenných, transformáciu a čistenie dát pre modelovanie. Pri použití techník s dohľadom je dôležité rozdelenie vzorky na testovaciu a trénovaciu, v prípade modelovania zriedkavých udalostí váženie dát.

Modeling
Vo fáze modelovania sa aplikuje viacero modelovacích techník, ktorých parametre sa kalibrujú na optimálne hodnoty.

Evaluation
Predtým ako sa vytvorený data mining-ový model (alebo modely) nasadí, je ho potrebné podrobne zhodnotiť, rekapitulovať kroky, ktoré viedli k jeho vytvoreniu, aby bola istota, že správne dosiahne podnikové ciele. Kľúčovým je overenie, či boli dostatočne zohľadnené dôležité podnikové problémy. Na konci tejto fázy sa rozhodne o použití výsledkov data mining-u.

Deployment
Vytvorením modelu projekt nekončí. Ak keď je cieľom modelu iba získanie vedomostí o dátach, získané vedomosti musia byť prezentované vhodným spôsobom. V závislosti od požiadaviek, fáza nasadenie môže pozostávať z jednoduchej tvorby reportu alebo komplexnej opakovateľnej implementácie data mining-ového procesu ako je automatické pravidelné skórovanie alebo integrácia data mining-ových modelov do podnikových aplikácií.


Data mining-ový softvér



Valid XHTML 1.1 Valid CSS Level Triple-A conformance icon, W3C-WAI Web Content Accessibility Guidelines 1.0
© data mining, s.r.o.