Novinka: Internetová archeologie

Novinka: Internetová archeologie

Některé věci na internetu jednoduše mizí. A přitom jde o důležitou část naší historie. Tak přesně k tomuto závěru došla studie Technologiy Review, která se podívala na záznamy z loňského roku a pozorovala, s jakou rychlostí mizely odkazy sdílené na sociálních platformách, jako je Twitter.

Přišli na to, že během jednoho roku se ztratí 11% dat a za dva roky se ztratí 27% dat.

Dnes se však ukazuje, že není všechno tak úplně ztraceno. Hany Salah-Eldeen a Michael Nelson z univerzity v Nofrolku našli způsob, jak zrekonstruovat odstraněný materiál. Sami říkají, že to funguje poměrně dobře.

Začalo to Egyptem

Nejdříve se ale pojďme podívat na to, jak na takový nápad vůbec přišli. Dvojice začala svoji práci tím, že studovali tisíce tweetů, blogových příspěvků a ostatních zdrojů, které byly publikovány v průběhu 18 dnů po povstání v Egyptě v roce 2011. Tyto zdroje jsou důležité, protože poskytují cenné záznamy o historické události.

Při tom však objevili, že některé z příspěvků prostě zmizely, a tak začali měřit rychlost, se kterou se to děje. Výsledkem byly výše uvedená čísla.

Pokračovalo to překvapením

Jejich novou prací pak byl pokus aspoň z části rekonstruovat chybějící příspěvky a zdroje, které už na webu chybí. Salah-Eldeen a Nelson začali tím, že se snažili potvrdit výsledky dřívější studie. A čekalo je překvapení.

„Nastal zajímavý jev. Několik zdrojů, které byly dříve prohlášeny za chybějící, se ukázalo jako opět dostupné,“ vysvětlili.

Když se nad tím zamyslíte, není na tom vůbec nic zvláštního. Je možné, že původní zmizení výsledků bylo způsobeno narušením domény, která byla později obnovena. Nebo vzpomeňme možnost zablokovaného účtu, který už je opět aktivní.

Většina příspěvků zanechává stopy

A tak Salah-Eldeen a Nelson přemýšleli, jak by bylo možné najít obnovený materiál, i kdyby se už nenacházel ve své původní podobě. Poukázali na to, že většina sdílených příspěvků zanechává stopy jinde na webu – retweety, hashtagy, komentáře atd.

Dvojice tedy fakticky přišla s pokusem rekonstruovat chybějící zdroje tím, že hledá stopy jinde na webu. Používali k tomu především nástroj Topsy, který jim umožňuje vyhledávat všechny tweety, které na konkrétní věc odkazují. To nazvali „tweet signature“ – tedy něco jako tweetový podpis.

topsyScreenshot

Pak extrahovali prvních pět nejčastějších pojmů v tomto podpisu a použili je jako vyhledávací dotaz do Googlu. Výsledkem byl seznam možných náhrad za ztracený zdroj.

Důležitou otázkou samozřejmě je, jak moc náhradní příspěvky odpovídají původnímu zdroji. Salah-Eldeen a Nelson to také zkoumali. Srovnali náhradní kandidáty s originály a zjistili, že náhrady měly 70% textovou podobnost k původnímu zdroji.

Mladý obor

Není to tedy dokonalé, ale lepší než nic. A možná to časem bude ještě lepší. Všechny vědní obory se přece vyvíjí, takže nejinak tomu jistě bude u internetové archeologie.

To je právě to zajímavé. Celý tento proces by se dal nazvat druhem internetové archeologie, která rekonstruuje historický obsah.

Archeologové a antropologové v reálném světě se stali velmi zručnými v rekonstrukci přírodní historie. Například závěry a zjištění, které lze zjistit z analýzy jednoho jediného zubu, jsou vskutku ohromující. Neexistuje žádný důvod, proč by jednou podobné věci nemohli umět i internetoví archeologové.

Zdroj: Mashable

Komentáře

Nahoru