Velká data čili big data. Kdy začnou generovat velký byznys?

4. 6. 2014

Sdílet

Autor: © tashatuvango - Fotolia.com
Datová analýza CFO totiž nabídne zase jen informace, i když, pravda, občas jinak nezjistitelné, ale podle modifikovaného hesla chytrému napověz, na hloupého dlouhý nos. Pomůže vám jen chytrý, dobře informovaný člověk s rozhledem a analytickým mozkem.

Big data jsou fenoménem posledních let. Kde se vzala, tu se vzala. Náhle máme obrovské objemy dat a nedovedeme je zpracovat. Pokud se je naučíme zvládat, můžeme prý získat řadu nových poznatků. Někde jsem četl, že to platí nejen ve vědě, či u slídila typu NSA, ale i v marketingu... Tam všude se při přehrabování hromady dat údajně získávají nové, až překvapivé znalosti. Kdo nepraktikuje big data, ten zřejmě zaspal dobu a jezdí ještě na páru, když ostatní kšeftují s informacemi rychlostí světla. Krize vám likviduje firmu? Nemáte zákazníky? A analyzujete velká data? Ne? Tak se tedy nedivte… 

 

Kam s nimi?  

Pravda, existují statistiky, podle nichž lidstvo každé dva roky, nebo dokonce už jen za jeden rok zdvojnásobí objem dat. Vyznejte se pak v nich! Když k nám po sametovém převratu vtrhla mimo jiné i počítačová revoluce, bylo PC s padesátimegovým diskem zázrakem techniky. Dnes po USB, které nemá alespoň 4 giga ani nevzdechneme. Kde se vzal ten příval dat, že nám nestačí gigabyty, terabyty či dokonce petabyty? Kde se vzaly přeplněné datové sklady?

Může za to internet a jeho produkty, tj. elektronická pošta, nejvíce pak tzv. sociální sítě. Mobilní operátoři (no, co ti toho o nás musí skladovat!). Banky. E-byznys! Naše „ukecanost“. Naše pohodlnost. Ale ukažte mi firmu (českou), která opravdu má někde v dataskladu uložené takové hromady dat, že potřebuje datamining a ještě nejnovější řešení pro big data. A víme vlastně, co to velká data vlastně jsou? Před deseti lety to mohlo být pár giga, dnes ? Petabyty? Big data jsou něco jako Bumbrlíček, neustále rostou. Každý rok dvojnásobně. Už se nám nevejdou do serverů, ani na vlastní disková pole. Šup s nimi do cloudu. Existuje mnoho definic, ale žádná neurčuje hranici minimální ani maximální. Takže, co jsou big data?

 

Bumbrdlíček existuje 

Smiřme se s tím, big data skutečně existují. Hromadí je nejen špionážní a bezpečnostní služby, ale i obyčejní teleoperátoři. Pomáhají jim všichni, kdo běhají po světě se strašně chytrými telefony, tablety či iPady a visí na Googlu, Facebooku či Twiteru, Seznamu atd. Ti praví obři v oboru big data jsou pak velcí hráči e-businessu jako je Amazon či eBay – tam používají například datový cluster o rozměru 90 PB (petabytů), další světoví hráči jsou na tom obdobně. Jenomže jde o internetové firmy, podstata jejich podnikání závisí na síti sítí a na ní poletujících datech. V takovém případě to práci s obřími balíky dat přímo vyžaduje. Pravda, jsou tu ještě nadnárodní, globální firmy či korporace. Musí to být šílená práce, když třeba HP potřebuje vydolovat nějaké údaje z doby, kdy jím akvizírovaný Compaq kdysi pohltil Digital. To už nějaký ten nástroj na zpracování obří hromady datové siláže vyžaduje.

Dobrá, uznáváme, i v českém prostředí mohou existovat firmy, které si pořídily první informační (ekonomické) systémy před patnácti, dvaceti lety a terabytové disky už jim dávno nestačí. Fakt existence velkého datového skladu ovšem ještě neznamená, že s nimi formou big dat umí zacházet, zda se z nich skutečně dá vydolovat něco, coby se hodilo (dnes, po patnácti, dvaceti letech) třeba marketingu. A skutečně existují v balíku ona data, dláždící cestičku k úspěšnému byznysu dneška?

 

Jak na ně a nezakopnout

Až do nedávna bylo zpracování dat pro analytické účely poměrně statickou úlohou. Zejména strukturovaná data, hrnoucí se z podnikových informačních systémů počínaje CRM, účetními systémy až po ERP, se finálně ukládají – dejme tomu – do datového skladu, obvykle v denní či týdenní periodicitě. Zpravidla správci datového skladu pak vytvářejí reporty, které běží nad uloženými daty. Pak k vyhledání patřičných údajů nastoupí nástroje typu business intelligence a data mining. To ovšem stačí jen pro základní analýzu a vizualizaci dat.

Běžné firemní datové sklady a softwarové nástroje pro správu dat nejsou ovšem připraveny na zpracování a analýzy velkých datových objemů v reálném čase (hned teď, do minuty) nebo efektivním způsobem z hlediska nákladů. Problém je v tom, že velké společnosti či organizace čelí stálé potřebě udržovat rozsáhlé soubory strukturovaných i nestrukturovaných dat a to i díky jistým vládním nařízením (například teleoperátoři). Navíc s postupnou digitalizací našeho života narůstá přímo geometrickou řadou objem archivace elektronických dokumentů, e-mailových zpráv a dalších záznamů o elektronické komunikaci včetně mobilních pojítek. To zapříčinilo zásadní změnu charakteru dat a způsobů jejich využití. A ta už nejsou centralizovaná a vysoce strukturovaná či snadno dolovatelná, ale stále více se jeví jako málo strukturovaná a vysoce distribuovaná (například tzv. nestrukturované texty, či různé typy multimediálních dat, navíc nekonzistentní a do jisté míry i nedůvěryhodné – sociální sítě). A tak se hledají nové způsoby zpracování a analýzy.

 

Máte už key-value databázi?

Datové technologie se samozřejmě vyvíjejí stále rychleji, ovšem z pochopitelných důvodů vznikla většina z nich postupným vývojem a táhnou s sebou balast dávných začátků (například kvůli kompatibilitě). V důsledku této skutečnosti (převádějte pořád data z jedné databáze do druhé, tak říkajíc novější, rychlejší atd.) leží velká část podnikových dat někde "u ledu" a přístup k nim je zdlouhavý a zdánlivě neproduktivní. Vždyť údajně jen jedna z pěti organizací svoje data v rámci celého podniku skutečně integruje, často leží v siláži několika dílčích, nechci říci nekompatibilních databází.

Navíc velké objemy dat volají po "big" hardwaru, tj. po výkonnějších serverech, větší kapacitě datových center, po výkonnějších procesorech, nových paměťových médiích a tak dále. Firmy i organizace jsou nuceny stále více digitalizovat svůj provoz a tedy hledat nové příležitosti k masivnímu škálování, zvyšování efektivity, snižování nákladů a zajištění provozu systémů na dříve nevídané úrovni. Například užití NoSQL databází je zřejmě jednou z cest, jak alespoň částečně vyřešit problém s big daty. Umožňují zpracovávat nestrukturovaná data a řešit závislosti mezi jednotlivými objekty nebo umožňují rychlejší vyhledávání. Jednou z možných cest je jejich vizualizace – v procesu rozhodování často nepotřebujete znát detaily, ale celkový koncept, souhrnné informace, vztahy mezi informacemi atp. A právě vizualizace by v této oblasti mohla být mimořádně potřebná a žádoucí. 

V této souvislosti se hovoří o tzv. key-value databázích, které jsou založeny na principu, že každému klíči je přiřazena určitá hodnota. Vyhledávat tedy lze jen pomoci klíče, který není možné v databázi nijak dynamicky měnit. Dalším z  nových nástrojů je tzv. Hadoop, vytvořený ve společnosti Yahoo! Jde o open source framework pro zpracování, ukládání a analýzu petabytů a hexabytů nestrukturovaných dat, distribuovaných přes více uzlů současně. Má ale i své nevýhody – jako typický open source vyznikal poměrně hekticky a nestačil vyzrát. Proto vznikají na jeho bázi komerční řešení, která více vyhovují velkým firmám s objemy dat, která dnes označujeme termínem big data.

 

Nzaspěte svoji budoucnost 

Big data jsou snem dnešních mladých manažerů, kteří doufají, že na počítači stisknou klávesu a vyhrnou se na ně údaje, které jim prozradí, co mají v byznysu dělat právě dnes, za týden, za rok. Problém ale spočívá v tom, že naleznete sto korelací mezi tisíci různými jevy, ale už málo kdy zjistíte jejich příčinné vazby. A pak babo, raď! Datová analýza CFO totiž nabídne zase jen informace, i když, pravda, občas jinak nezjistitelné, ale podle modifikovaného hesla chytrému napověz, na hloupého dlouhý nos. Pomůže vám jen chytrý, dobře informovaný člověk s rozhledem a analytickým mozkem. Dvacetiletý "také analytik" nebude ve firmě moc platný, protože zpravidla netuší nejen to, kdy vypukla první světová válka, ale ani to, s kolika firmami ta jeho sfúzovala. Přesto se ukazuje, že velké společnosti, které nasadily do pátrání po silážovaných datech analytický software, mají z big dat projektů prospěch.

bitcoin školení listopad 24

Bezpochyby si dnes bez datové analýzy nelze představit podnikání. Ale jak už bylo řečeno, sama o sobě nikoho nespasí. Navíc výzkumy zaměřené na využití big dat ve firmách (USA) ukazují, že jejich využití je poměrně nízké. Pouze dvacet procent všech dotazovaných společností uvedlo, že využívají technologie založené na big datech, a 9,7 % organizací je plánuje v průběhu následujících měsíců zavést. Překvapivých 40,3 % dotazovaných IT profesionálů však odpovědělo, že nemají žádné plány tyto technologie zavést. Jakpak by to asi dopadlo při podobném průzkumu v Čechách? Jak ale praví známé úsloví, kdo chvíli stál, stojí opodál. Big data se dlouhodobě ignorovat nevyplatí.