Internet se v posledních třech desetiletích stal integrální součástí soudobých společností a jeho obsah postupně ohromně narůstá a velmi dynamicky se proměňuje. I tak však společenské vědy a společenští vědci nevěnují přílišnou pozornost tomu, jaké svědectví může web nabídnout ohledně společenských změn. Tento článek se věnuje úvodu do problematiky webových archivů, které mohou sloužit jako zdroj dat částečně vypovídající o dynamické proměně současné společnosti a komunikace. Cílem článku je diskutovat jednotlivé problémy, kterým společenský vědec při využití dat z webových archivů čelí, a navrhnout či alespoň nastínit jejich řešení.
Internet se v posledních třech desetiletích stal integrální součástí soudobých společností a jeho obsah postupně ohromně narůstá a velmi dynamicky se proměňuje. I tak však společenské vědy a společenští vědci nevěnují přílišnou pozornost tomu, jaké svědectví může web nabídnout ohledně společenských změn. Tento článek se věnuje úvodu do problematiky webových archivů, které mohou sloužit jako zdroj dat částečně vypovídající o dynamické proměně současné společnosti a komunikace. Cílem článku je diskutovat jednotlivé problémy, kterým společenský vědec při využití dat z webových archivů čelí, a navrhnout či alespoň nastínit jejich řešení.
V první části článku je představen smysl webových archivů a jejich současné institucionální zakotvení jak v České republice, tak v zahraničí. V druhé části je diskutována otázka přístupu k datům z webových archivů. Omezení v přístupu jsou na jedné straně technická, kdy se musí výzkumník vypořádat s velkým množstvím dat a nároky na výpočetní kapacitu, a na druhé straně právní a etická. Právní omezení se dále dělí z hlediska autorských práv a z hlediska ochrany osobních údajů. Článek zdůrazňuje, že kromě technických a právních omezení jsou zde také omezení etická, kterých by si měl být badatel vždy vědom, a měl by přistupovat k datům s opatrností i z tohoto ohledu. Jako částečné řešení omezení v přístupu k datům navrhuje článek mimo jiné vytvoření a provozování analytického rozhraní, ze kterého by výzkumníci mohli získávat agregované výstupy z webových archivů bez přímého přístupu k primárním datům.
Třetí závěrečná část článku se věnuje metodologickým omezením dat uložených ve webových archivech. Zabývá se především otázkami reprezentativity, neúplnosti a heterogenity těchto dat. Jsou představeny tři typy způsobu sběru dat ukládaných ve webových archivech (tzv. sklizně): výběrové, tematické a celoplošné. Ve výběrových sklizních rozhodují o zařazení webu do sklizně kurátoři, kteří vybírají z jejich pohledu hodnotné weby a z hlediska kvantitativních sociálních věd je tak výběr reprezentativní pouze na vybrané zdroje. Tematické sklizně se věnují konkrétnímu tématu a mají tak dobrou míru reprezentativity i úplnosti dat, pokud se výzkumník věnuje některému z vybraných témat. Ovšem počet těchto témat je značně omezený. Z hlediska sociálních věd jsou tak jsou nejzajímavější celoplošné sklizně, které ovšem trpí částečnou nereprezentativitou i neúplností. Autoři článku nabízí dílčí řešení otázky omezené reprezentativity celoplošných sklizní prostřednictvím kvalitního výběru dat z webového archivu, a to jak pomocí tematického zúžení, tak pomocí pravděpodobnostního váženého výběru dat z archivu. Takové řešení však v současné době naráží na absenci vhodných opor výběru.
V závěru třetí části se článek zaměřuje na otázku interpretace výsledků z webových archivů. Důležitým poznatkem je, že pokud výzkumník vychází pouze z těchto dat, nezná záměry aktérů vytvářejících obsah, a musí tak jejich motivace pouze odhadovat. Zde autoři článku vidí prostor pro propojení klasického sociologického výzkumu s daty webových archivů. Článek také zdůrazňuje, že pozorovaná změna webu se kromě změny chování aktérů může dít i z důvodů změny populace používající internet, změny technologie a v neposlední řadě kvůli změně metodologie sběru dat. Je proto důležité vytvářet velmi pečlivou dokumentaci sběru dat webového archivu a v případě využívání analytického rozhraní i přesný popis metod, které má výzkumník v rozhraní k dispozici.