Jan Matoušek: Používání Googlu či Facebooku je obchod – tvoje data za jejich služby

SVA_3217 (3)Chcete mít překladač jako ze Star Treku? Možná se brzy dočkáte. Jan Matoušek se domnívá, že by funkční verze mohla být dostupná už v období kolem roku 2020-2030. Obrovskému rozvoji v různých oblastech totiž napomáhá efektivní práce s velkým množstvím dat.

Abychom přinesli zajímavé informace o data miningu, obrátili jsme se s žádostí o rozhovor na předního českého specialistu v tomto oboru. Konkrétně na Jana Matouška, který je zakladatelem a šéfem firmy Data Mind.

Ahoj Honzo. Jsem rád, že jsi kývnul na náš rozhovor.

Jsem rád, že můžu předat něco ze své práce.

Mohl bys stručně vysvětlit našim čtenářům, co se skrývá pod termínem data-mining?

Data mining je dolování znalostí z dat. Obvykle máš na začátku hromadu transakcí, ze které je třeba vytěžit informace. Nejčastěji „těžíme“ charakteristiky zákazníků. Hledáme mezi zákazníky jasné typy, jako jsou „mladí frajeři“, „maminky na mateřské“ apod., kterým říkáme segmenty. Používáme k tomu data o nákupech.

Kdy tento fenomén vznikl? Myslím v masivní podobě. Je logické, že lidé sbírali informace od nepaměti, ale dřív se asi zaměřili spíše na intuici. Dnes je možné získat tolik informací, že už na to běžný selský rozum pravděpodobně nestačí.

Data mining vyrostl na zádech statistických metod, které jsou zde od padesátých let. V devadesátých letech nastal boom ve spojení s telekomunikacemi a bankami, které měly tou dobou dost peněz, a ještě větší chuť je zmnožovat. Jasný klíč k tomu, jak vydělat ještě více, poskytují právě data o zákaznících a jejich využití k prodeji produktů. Nejlépe se prodá produkt, který souvisí s tím, co člověk už má, nebo souvisí s charakterem zákazníka. Další aplikací je prevence výpovědí zákazníků. Základem ovšem zůstává zákaznická segmentace, typologie klientů, která slouží ke strategickému marketingu i k cílení konkrétních sdělení dobře popsaným zákaznickým skupinám.

Co se v této branži za poslední léta nejvíce změnilo?

Nejrychleji se v data miningu mění nálepky. Kolem roku 2010 se oboru začalo říkat „big data“, ještě později v roce 2015 se vžil pro data minig termín „machine learning“, a nyní se prosazuje nálepka z oblasti science fiction – „umělá inteligence“. Zatímco název oboru se často mění, aby byl atraktivní pro investory, spoustu metod je tu od roku 1950. V posledních letech ovšem nastal i druhý technologický boom, v jehož rámci jsou na tahu hluboké neuronové sítě. Moderní technika umí rozpoznávat obrázky a určovat, co na nich je. Umí diagnostikovat vadný motor nebo rozpoznávat mluvenou řeč. To jsou oblasti, které zažívají skutečný vývoj, a které mají konkrétní zpeněžitelné aplikace. Stroje se také naučili hrát společenské hry na úrovni velmistrů, nicméně to nepovažuji za příliš podstatné z ekonomického hlediska.

K čemu jsou vlastně získaná data dobrá?

Zjednodušeně. Data jsou peníze. Dobře to vidíš na firmách jako je Google či Facebook, kde data představují vedle algoritmů jejich nejcennější majetek. Data umožňují přesné cílení reklamy, a tedy nejefektivnější prodej bez zbytečného obtěžování. To činí „datově bohaté“ firmy skutečně bohatými.

Komu všemu mohou data pomoci. Vyplatí se i malým subjektům získávat informace a těžit z nich důležitá data?

Data mohou pomoci každému podnikatelskému subjektu. Tomu, kdo má obrat 100.000 Kč ovšem stačí sledovat náklady a výnosy. Kdo má 1.000.000 Kč obratu sleduje obraty po produktech. Teprve nad 50.000.000 Kč obratu se vyplatí definovat si odlišné zákaznické segmenty a rozdělit marketingovou komunikaci do více větví nebo si hrát s algoritmy na doporučování zboží. Ačkoli se snažíme data mining demokratizovat, vždy se nejvíce vyplatí silným hráčům s dobrým finančním, technologickým a marketingový zázemím. Lidská práce nad milionovou databází je relativně stejná jako nad pár řádky. Je tedy efektivní, aby metody práce s daty odpovídaly velikosti dat. Malým firmám proto říkáme, začněte s kvalitními malými daty a reportingem. Teprve později zapojte „umělou inteligenci“ neuronových sítí. Výjimkou jsou samozřejmě start-upy přímo založené na data miningu, na analýze zvuku, či obrazu. Druhou výjimkou je online svět, který dokáže zapojovat datové modely daleko levněji než tradiční obchodníci.

Kde všude je možné získat data pro další analýzu? Jaké kanály jsou podle tebe nejefektivnější?

V dnešním světě jsou volně k dispozici miliony datasetů jen tak – na hraní. Na nich je možné se naučit jakoukoli statickou metodu či celý data mining. Pak tady jsou státní data, která by měla být dostupná zdarma každému. I v České republice máme k dispozici několik desítek volně dostupných datasetů. Například výsledky voleb, sčítání lidu, či registr firem. Nakonec jsou zde data komerční, která vám nikdo nedá, pokud nepodepíšete dohodu o důvěrnosti se statisícovými pokutami. Tato data tvoří majetek společností, proto jsou firmy velmi oparné v tom, komu je svěřují. I z toho pravidla však existuje pár výjimek, například americká firma „Lending club“ dává většinu dat k dispozici, a může se jí to vyplatit, protože dostává zpět řadu otevřených analýz. Otevřenost je tedy způsob, jak přimět datové analytiky, sem tam, pracovat i zadarmo.

ladyvirtual-datarestart-2017-14-e1491770881801-1024x768

Působí to na mě, že pro kvalitní data-mining, který opravdu pomůže ke kýženému výsledku musí člověk rozumět mnoha věcem a dávat si je do souvislostí. Je to tak? Co všechno dobrý musí data-miner ovládat?

Pro dobrého data minera se vžilo označení „data scientist“. Původně šlo o nedostižný ideál člověka, který umí velmi dobře statistiku, programování, a ještě má business vzdělání na úrovni kvalitního MBA. Postupně se z tohoto vysokého standardu slevovalo, a dnes má každá banka desítky „data scientistů“ nižší úrovně, kteří umí data mining jen uživatelsky a k businessu nějakým způsobem přičichli. Přišlo se na to, že kombinace obchodního génia, statistika a programátora je v přírodě pořád ještě vzácná.

Čistě teoreticky. Kdybych se rozhodl, že se ve své firmě začnu věnovat data-miningu, doporučil bys mi využít externích služeb, nebo hledat přímo specialistu, kterého bych zaměstnal?

Doporučujeme každému začít s expertní firmou jako je náš Data Mind. V první fázi to ušetří spoustu pokusů a omylů. Vývoj vlastních oddělení je značně dražší a doporučujeme ho až poté, co jsou nastaveny základní procesy uvnitř firmy, tak aby analytické oddělení uživila. Tou dobou už musí být marketing schopný pracovat se segmenty a posílat do světa více různých sdělení paralelně. Důležitá je také technologická vyspělost firmy. Není příliš šťastné mít jednoho interního data minera, protože osamocený „expert“ pohřbený v korporátu se toho moc nového nenaučí, a časem se dostane do smyčky rutiny. Životaschopným způsobem je tedy začít s externím data miningovým týmem a časem začít budovat vlastní interní tým s experty i výkonnými pracovníky.

Několik výzkumných zpráv a analýz jsem v rámci studia také přečetl, proto vím, že některé studie a analýzy je nutné brát s nadhledem a číst je kritickým okem. Nemůže se stát, že by specialista na data-mining byl odtržen od reality? Myslím tím, že by přehlédl nějaké souvislosti, případně si nějaká data špatně interpretoval, a přitom by si nevšiml, že je něco špatně. I když by ostatní měli podezření.

Existují dobrá jablka a špatná jablka. Ostré a tupé nože. S analytiky je to stejné, někteří jsou dobří a jiní špatní.

Jakou budoucnost předpovídáš oboru data-miningu a zpracovávání dat? Může se v tom nějak projevit tendence legislativního omezování internetu?

Nyní zažíváme boom a moc nevidím jeho konec. Data jsou a budou důležitým orientačním bodem pro vlády, politiky a zejména pro firmy. Z firem nejvíce pro ty z nové ekonomiky. Takže, co se týče využití dat, jsem naprosto klidný. Jiný názor mám na desítky nafouknutých a přefinancovaných „start-upů“, které jsou založené na „umělé inteligenci“. Některé přežijí, jiné skončí. Nadšení investorů však bude krotit odliv levných peněz i reálné zkušenosti s tím, že datová oblast negarantuje zisk pro každého. Co se týče nových směrnic na ochranu dat uživatelů. Nová směrnice EU GDPR je docela velký zásah do fungování všech firem. Co jsem z ní četl, nezakazuje data mining, jen omezuje nakládání s těmi skutečně osobními údaji. Rámcově smysl dává, protože regulace v oblasti dat je nutná. Některá opatření budou však pro firmy velice bolestivá a neefektivní, například nově povinná pozice „pověřence pro osobní údaje“.  A ještě jiná ustanovení zastarají dříve, než dosáhnou platnosti. Například prohlášení IP adresy za osobní údaj mělo možná nějaký smysl kolem roku 1998, kdy to byl hlavní způsob identifikace lidí. Do legislativy se ovšem IP adresa jako osobní údaj dostane v roce 2018, kdy je tento způsob identifikace velmi zastaralý a v zásadě se již nepoužívá, protože ho nahradily efektivnější způsoby.

Osobně nemám rád, když o mně kdokoliv sbírá jakékoliv informace. O to míň, když je to stát. Nemůže nás moderní technologie a přístupy k získávání, třídění a analyzování dat zavést až k další totalitě? K plošnému sledování lidí, zneužívání informací a represím?

Informace a politická totalita nejsou dokonale korelovány. Je například známo, že vláda USA operuje největším špehovacím aparátem na světě. Přesto jí málokdo pouvažuje za méně demokratickou než vládu v Zimbabwe, která o svých lidech neví skoro nic.

SVA_3305

Je vůbec možné z tohoto rozjetého vlaku vystoupit? Co bych měl udělat, abych za sebou nechával co nejmenší informační stopu?

Pokud používáš služby, kdy část soukromí vyměňuješ za nějakou funkcionalitu, těžko se sledování zbavíš. Používání Googlu či Facebooku je obchod – tvoje data za jejich služby. Spoustu dat pro operátory s sebou nese i pouhé používání „hloupého“ mobilního telefonu, o smartphonech vůbec nemluvě. Pokud bys tedy chtěl žít zcela bez datové stopy, budeš se muset vzdát nejen internetu, telefonie a bankovních služeb, ale i své občanské identity. Takovou věc již není snadné provést a ani to není legální. V zásadě lze říci, že nejmenší datovou stopu má bezdomovec postrádající občanský průkaz, protože tomu datově zbývá jen poslední adresa a záznam v matrice.

Abychom neskončili jen u černých scénářů. Pomocí obrovských balíků dat se daří vyvíjet nové technologie, které mnoha lidem pomáhají. V posledních dnech rezonuje v médiích zejména problematika zmíněných neuronových sítí. Pokud se nepletu, obdobný mechanismus nově používá také překladač od společnosti Google. Pokroky jsou na tomto poli poměrně velké. Myslíš, že jednoho dne budeme mít podobný překladač jako ve Star Treku? Kdy zhruba bychom se mohli této doby dočkat?

Na poslední konferenci machine learningu v Praze se prezentovala 95% úspěšnost v rozpoznání lidského hlasu. Technologie překladů je také rozumně přesná a hodně rychle se učí. Univerzální překladač ze „Star Treku“ tak nejspíš budeš mít ve svém mobilu někdy v dekádě 2020 – 2030.

Honzo, děkuju za přínosné informace. Přeju ti, ať se daří. A doufám, že nám v budoucnu ještě něco zajímavého řekneš. Měj se hezky.

Klidně se ozvi, budu rád.

Komentáře

Nahoru