tabulky faktů jsou základem datového skladu. Obsahují základní měření podniku a jsou konečným cílem většiny dotazů na datový sklad. Neexistuje žádný bod, v vyzdvihnutí skutečnosti, stoly na stožár, pokud byly vybrány tak, aby odrážely naléhavé priority, byly pečlivě zajištěna kvalita a jsou obklopeny rozměry, které poskytují nepřeberné množství vstupních bodů pro omezení a seskupení. Nyní, když jsme vydláždili cestu pro tabulky faktů, podívejme se, jak je postavit a použít.
zůstaňte věrni zrnu
prvním a nejdůležitějším krokem návrhu je deklarování zrna tabulky faktů. Zrno je obchodní definice toho, co představuje jediný záznam tabulky faktů. Deklarace zrna není seznam rozměrových cizích klíčů, které implementují primární klíč pro tabulku faktů. Zrno je spíše popisem události měření ve fyzickém světě, která vede k měření. Když skener obchodu s potravinami měří množství a účtovanou cenu zakoupeného produktu, zrno je doslova pípnutím skeneru. To je skvělá definice zrna!
ihned po vyhlášení zrna je možné vypsat rozměrové cizí klíče, které v daném zrnu existují. Prvním prohlášením zrna zůstává diskuse o cizích klíčích uzemněná a přesná.
skutečným účelem tabulky faktů je úložiště číselných skutečností, které jsou pozorovány během události měření. Je kriticky důležité, aby tyto skutečnosti byly věrné zrnu. Obchod s potravinami „beep“ měří množství a rozšířenou cenu skenovaného produktu. Nikdy nezahrnujeme další číselná měření, která porušují zrno, jako je celkový prodej kategorie nebo prodej tohoto produktu minulý měsíc. I když tato další měření mohou být pro vybrané výpočty úzce užitečná, nelze je kombinovat mezi záznamy faktů a zavádějí podivné asymetrie do návrhu aplikací. Nechali jsme naše business intelligence (BI) nástroje vypočítat tyto off-topic hodnoty v době dotazu, spíše než tvrdé kódování je do našich tabulek faktů.
vždy se snažíme, aby fakta byla aditivní napříč rozměry a přesně v souladu s obilím. Všimněte si, že neukládáme cenu skenovaného produktu, protože cena není aditivní. Spíše ukládáme rozšířenou cenu, kterou lze volně přidávat mezi produkty, obchody, časy a všechny ostatní rozměry.
vybudovat z nejnižšího možného zrna
datový sklad by měl být vždy postaven na tabulkách faktů vyjádřených při nejnižším možném zrnu. V příkladu je pípnutí pokladny obchodu s potravinami nejnižším možným zrnem, protože jej nelze dále rozdělit. Fakta tabulky na nejnižší zrno jsou nejvýraznější, protože mají nejúplnější sadu možných rozměrů pro tento obchodní proces. Pípnutí obilí skutečnost, tabulka by mohla mít Rande, Obchod, Výrobek, Pokladna, Ředitel, Zákazník, Podpora, Soutěže, Koše a dokonce i Počasí, pokud všechny tyto zdroje dat lze zařadit, když skutečnost, záznamy jsou vytvořeny. Vyšší agregované tabulky zrn, jako je prodej kategorií podle okresů, nemohou podporovat všechny tyto rozměry, a proto jsou mnohem méně výrazné. Je zásadní chybou zveřejňovat pouze agregované tabulky koncovým uživatelům, aniž by byly tabulky s nejnižšími zrny hladce přístupné vrtáním dolů. Většina falešných představ, že rozměrové tabulky předpokládají obchodní otázku, pochází z této zásadní chyby.
Tři Druhy Skutečnost, Stoly,
Pokud jste zůstat věrný obilí, pak všechny vaše skutečnost tabulky mohou být rozděleny do tří typů: transakce obilí, periodické snímek obilí a hromadí snímek obilí (tři typy jsou zobrazeny na Obrázku 1). Na obrázku 1 jsou rozměry označeny FK (cizí klíč) a číselná fakta jsou kurzívou.
transakční zrno odpovídá měření provedenému v jediném okamžiku. Pípnutí obchodu s potravinami je transakční zrno. Naměřené skutečnosti jsou platné pouze pro tento okamžik a pro tuto událost. Další událost měření by se mohla stát o milisekundu později nebo příští měsíc nebo nikdy. Tabulky faktů transakcí jsou tedy nepředvídatelně řídké nebo husté. Nemáme žádnou záruku, že budou zastoupeny všechny možné cizí klíče. Transakční grain fakt tabulky mohou být obrovské, s největší obsahující mnoho miliard záznamů.
zrno periodického snímku odpovídá předdefinovanému časovému rozpětí, často období účetního výkaznictví. Figura 1 ilustruje periodický snímek měsíčního účtu. Naměřená fakta shrnují aktivitu během nebo na konci časového rozpětí. Zrno periodického snímku nese silnou záruku, že se v každém snímku objeví všechny vykazující subjekty (například bankovní účet na obrázku 1), i když neexistuje žádná aktivita. Periodický snímek je předvídatelně hustý a aplikace se mohou spolehnout na kombinace kláves, které jsou vždy přítomny. Periodické snapshot fakt tabulky mohou také získat velké. Banka s 20 miliony účtů a 10letou historií by měla 2.4 miliardy záznamů na měsíčním účtu periodický snímek!
tabulka faktů akumulačního snímku odpovídá předvídatelnému procesu, který má dobře definovaný začátek a konec. Zpracování objednávek, zpracování reklamací, řešení servisních hovorů a přijetí na vysokou školu jsou typickými kandidáty. Zrno hromadícího se snímku pro zpracování objednávky je například obvykle řádková položka na účtu. Všimněte si na obrázku 1, že existuje více dat představujících standardní scénář, kterým objednávka prochází. Hromadí snímek záznamy jsou revisited a přepsán jako proces postupuje přes jeho kroky od začátku do konce. Akumulační tabulky faktů snímků jsou obecně mnohem menší než ostatní dva typy kvůli této strategii přepisování.