![]()
CRM Berberis
N-Expert
Porsenna
![]()
![]()
![]()
Eksploracja danych |
Mianem eksploracji danych (data mining) okreÅ›la siÄ™ poszukiwanie wiedzy, ukrytej głęboko, gdzieÅ› w gigabajtowych bazach. Wiedza to coÅ› wiÄ™cej niż informacja, to struktura, a wiÄ™c specyficzne korelacje, prawidÅ‚owoÅ›ci statystyczne lub inne zależnoÅ›ci, które dajÄ… siÄ™ wypowiedzieć w jÄ™zyku matematyki lub w dowolnym jÄ™zyku naturalnym. Rzecz jasna, nieÅ‚atwo do nich dotrzeć - niekiedy nie podejrzewa siÄ™ nawet ich istnienia. Z drugiej strony mogÄ… one mieć realnÄ… wartość liczonÄ… w milionach dolarów, np. jeÅ›li dotyczÄ… ważnych dla jakiegoÅ› sektora zachowaÅ„ rynkowych. Ich uchwycenie może oznaczać umiejÄ™tność przewidzenia przyszÅ‚oÅ›ci, a tym samym - dać znaczÄ…cÄ… przewagÄ™ nad konkurencjÄ…. Nie chodzi tutaj tylko o tak jaskrawe przykÅ‚ady jak notowania walut na rynku pieniężnym, czy akcji i obligacji na gieÅ‚dzie papierów wartoÅ›ciowych. Zazwyczaj każde duże przedsiÄ™biorstwo gromadzi na dyskach swoich komputerów przeróżne dane, które w zależnoÅ›ci od podejÅ›cia, mogÄ… mieć albo wartość czysto historycznÄ…, albo też posÅ‚użyć do ciekawych analiz marketingowych, których koszt może ulec obniżeniu o bardzo istotny skÅ‚adnik - nakÅ‚ady na samo zebranie danych.
Na ogóÅ‚, gdy ekstrahujemy informacjÄ™ z baz danych, wiemy dokÅ‚adnie czego szukamy. Tworzenie zÅ‚ożonych, przekrojowych raportów może być nawet bardzo skomplikowane technicznie, lecz zawsze jest procedurÄ… dobrze okreÅ›lonÄ… - raport stanowi odpowiedź na precyzyjnie zadane pytanie, w rodzaju "pokaż wszystkich klientów, którzy w ubiegÅ‚ym miesiÄ…cu zamówili towary na łącznÄ… sumÄ™ ponad 10 tysiÄ™cy zÅ‚otych i zalegajÄ… z pÅ‚atnoÅ›ciÄ…". Istota eksploracji danych polega natomiast na tym, że nie potrafimy zadać konkretnego pytania. Interesuje nas tylko, czy w naszej bazie sÄ… jakieÅ› prawidÅ‚owoÅ›ci.
Klasyczne przykłady zastosowań eksploracji danych
Eksploracja wymaga użycia specjalistycznych narzÄ™dzi, pozwalajÄ…cych szybko zauważać zÅ‚ożone zwiÄ…zki pomiÄ™dzy danymi, zawartymi w wielkich korporacyjnych bazach. Nasi konsultanci używajÄ… tu produktów firm Statsoft oraz SPSS, a także stworzonego we wÅ‚asnym zakresie specjalistycznego systemu prognozowania N-Predictor, opartego na sieciach neuronowych .
Ostatnio Oracle zaczął też udostępniać funkcje wspomagające eksplorację danych, wbudowane w bazę 9i. Więcej na ten temat w artykule opublikowanym w materiałach konferencyjnych Polish Oracle User Group.
Trzy podstawowe i najczęściej stosowane metody eksploracji danych to:
Sieci neuronowe
Sztuczne sieci neuronowe sÄ… ukÅ‚adami przetwarzajÄ…cymi informacjÄ™ w sposób równolegÅ‚y, wzorowanymi na ludzkim mózgu. Choć analogia jest (przynajmniej na dzieÅ„ dzisiejszy) dość daleka, to jednak sieci wykazujÄ… zadziwiajÄ…co wiele cech, o które posÄ…dza siÄ™ raczej myÅ›lÄ…ce organizmy żywe niż tradycyjne krzemowe komputery. IstotÄ… sieci neuronowych jest możliwość ich uczenia, polegajÄ…ca w rzeczywistoÅ›ci na dÅ‚ugotrwaÅ‚ym dostrajaniu dużej iloÅ›ci liczb ważących przetwarzane sygnaÅ‚y, zwanych wagami synaptycznymi. Z punktu widzenia czÅ‚owieka sieci stanowiÄ… czarne skrzynki, produkujÄ…ce np. caÅ‚kiem trafne prognozy rzeczywistoÅ›ci w sobie tylko wiadomy sposób. Nauczona sieć to ukÅ‚ad, który na okreÅ›lone sygnaÅ‚y wejÅ›ciowe odpowiada we wÅ‚aÅ›ciwy sposób i może w zwiÄ…zku z tym stanowić model pewnego zjawiska lub procesu technologicznego, przewidujÄ…c np. jego przyszÅ‚y przebieg.
Więcej informacji na temat sieci neuronowych znajdziesz tutaj.
Zobacz artykuł w materiałach konferencyjnych Polish Oracle User Group.
Zobacz artykuł w materiałach konferencyjnych Polish Oracle User Group.
Drzewa decyzyjne
Algorytmy drzew decyzyjnych pozwalają automatycznie generować opisujące dane zdania analityczne, takie jak np. "Jeżeli temperatura na czujniku 1 wyższa niż 150 stopni i temperatura na czujniku 2 wyższa niż 120 stopni to prawdopodobna awaria". Jest to niezwykle cenna właściwość, gdyż umiejętność formułowania tego rodzaju wypowiedzi o rzeczywistości jest koniecznym (choć nie wystarczającym) warunkiem dla stwierdzenia, że się tę rzeczywistość "rozumie".
Zobacz artykuł w materiałach konferencyjnych Polish Oracle User Group.
Automatyczna detekcja klastrów
Na rekordy danych można patrzeć jak na punkty w wielowymiarowych przestrzeniach, których wymiary odpowiadajÄ… poszczególnym atrybutom danych. Jeżeli np. dane dotyczÄ… pracy jakiejÅ› maszyny, wymiarami mogÄ… być temperatura, ciÅ›nienie, pobór mocy itd. Bywa, że w rozmieszczeniu danych w takich przestrzeniach nie ma absolutnie żadnych prawidÅ‚owoÅ›ci. Niekiedy jednak grupujÄ… siÄ™ one i tworzÄ… swoiste zagÄ™szczenia, tzw. klastry, które majÄ… zazwyczaj okreÅ›lone znaczenie. Np. jeżeli w przestrzeni opisujÄ…cej miejsce zamieszkania oraz wyksztaÅ‚cenie ludzi istniejÄ… klastry, znaczy to, że obie cechy sÄ… ze sobÄ… powiÄ…zane. W przestrzeniach dwuwymiarowych klastry widoczne sÄ… "goÅ‚ym okiem", jednak w przypadku dużej iloÅ›ci wymiarów na ogóÅ‚ trudno je uchwycić nie posÅ‚ugujÄ…c siÄ™ specjalnymi metodami matematycznymi, np. tzw. algorytmem K-Å›rednich.
Zobacz artykuł w materiałach konferencyjnych Polish Oracle User Group.