Fúze dat

Představme si situaci, kdy potřebujeme o velké části klientů (respondentů) zjistit nějakou informaci. Zároveň ale z časových, finančních nebo jiných důvodů není možné tuto požadovanou informaci jednoduše získat přímou cestou. Jedná se například o situaci, kdy nás zajímá názor klientů na danou věc, avšak není možné provést přímé dotazování, protože by to bylo nákladné, časově náročné a v mnoha případech by bylo těžké většinu klientů motivovat k tomu, aby přímé dotazování podstoupili.

V situaci, kdy můžeme předpokládat, že odpověď na tuto otázku je alespoň částečně determinována existujícími informacemi, které o klientech máme k dispozici, můžeme použít následující přístup. Vybereme část klientů, u kterých potřebným způsobem (dotazník, osobní schůzky, atd.) zjistíme požadované informace. Fúze dat potom označuje postup, který vede k napojení takto získaných dat na zbylou část klientské databáze.

Pro bližší popis fúze dat předpokládejme, že je naším cílem připojit hodnotu jedné cílové proměnné na základě hodnot několika známých proměnných. Dále předpokládejme, že u jisté referenční skupiny respondentů máme k dispozici jak hodnoty známých proměnných, tak hodnoty cílové proměnné. Vezmeme-li nyní nového respondenta, u kterého máme pouze hodnoty známých proměnných, můžeme odhadnout hodnotu cílové proměnné následujícím způsobem.

Nejprve najdeme všechny respondenty z referenční skupiny, kteří jsou mu v jistém smyslu nejblíže. Blízkost je v tomto kontextu definována pomocí vhodné kombinace Eukleidovské (pro ordinální a spojité proměnné) a Hammingovy (pro kategoriální proměnné) vzdálenosti. V případě, že nejblíže k novému respondentovi je právě jeden reprezentant referenční skupiny, přiřadíme do cílové proměnné odpověď tohoto jednoho reprezentanta. Pokud v referenční skupině existuje několik reprezentantů se stejnou nejmenší vzdáleností od nového respondenta, doplníme cílovou proměnnou na základě hodnot této skupiny. Konkrétní způsob záleží na typu cílové proměnné. Pro spojité veličiny to může být výběrový průměr nebo medián z této skupiny. Pro ordinální pak medián. V případě faktoriálních a často i ordinálních proměnných bývá nejrozumnější vybrat hodnotu cílové proměnné náhodným výběrem z výše diskutované skupiny nejbližších reprezentantů. Výhodou této randomizované volby je menší náchylnost k systematickým odchylkám od skutečného rozdělení cílové veličiny.

Pokud je počet známých proměnných použitých k určování nejmenší vzdálenosti velký v porovnání s velikostí referenčního vzorku, dochází k tomu, že jsou hodnoty referenčních respondentů v prostoru těchto známých proměnných velmi řídce rozprostřeny. Přiřazování na základě nejmenší vzdálenosti pak přestává být optimální. Z tohoto důvodu je vhodné nejprve snížit dimenzi prostoru známých proměnných, tj. zmenšit jejich počet. Obecně je především vhodné eliminovat proměnné, které na cílovou proměnnou nemají vliv. K tomu lze využít metody analýzy rozptylu nebo testů dobré shody.  Pro spojité proměnné lze také využít metodu analýzy hlavních komponent.

Při dostatečné velikosti referenční skupiny je také možné provádět validaci přiřazování hodnot cílové proměnné. K tomuto účelu se referenční skupina rozdělí na dvě části. U jedné z nich se aplikuje výše uvedený postup přiřazení, ve kterém používáme druhou podskupinu jako referenční, tj. hodnoty cílové proměnné bereme z ní. Po provedení můžeme porovnávat takto získané hodnoty cílové proměnné s těmi skutečnými.

Závěrem shrňme, že fúze dat poskytuje specifickou možnost, jak rozdistribuovat znalost o jisté skupině respondentů na všechny respondenty. Jedná se o netriviální statistickou úlohu, při které je nutné detailně prozkoumat především strukturu známých proměnných a jejich vztah k cílové proměnné. Na tomto základě je pak možné navrhnout konkrétní postup napojování. V situacích, kdy známé proměnné velmi dobře determinují hodnotu cílové proměnné, je fúze dat typicky velmi dobře aplikovatelná a umožňuje tak získat zajímavé informace s výrazně nižšími náklady.

Napsat komentář