Trwałe identyfikatory (PID) i Linked Open Data w praktyce historyka
Jednym z kluczowych wyzwań w pracy historyka jest jednoznaczna identyfikacja bytów historycznych, o których mówią źródła: osób, miejscowości, instytucji. Powtarzalność imion i nazwisk, wielość nazw tej samej miejscowości (np. „Lwów”, „Lemberg”, „Leopolis”) oraz zmienność granic i funkcji administracyjnych powodują rozproszenie danych na wiele rekordów albo ich nieuprawnione łączenie. W środowisku cyfrowym prowadzi to do duplikatów, niedziałających odsyłaczy oraz trudności w integracji danych z różnych projektów. Rozwiązaniem są trwałe identyfikatory (Persistent Identifiers, PID) – stabilne i globalnie unikalne oznaczenia obiektów (osób, miejsc, instytucji, publikacji, zbiorów danych), niezależne od bieżącej lokalizacji pliku czy wariantu zapisu nazwy.
URL a PID – zasadnicza różnica
URL (Uniform Resource Locator) to adres wskazujący konkretne miejsce zasobu na serwerze; po zmianie struktury serwisu dotychczasowy adres może przestać działać. PID jest rozwiązywany przez odrębny system (np. DOI lub Handle), który przechowuje metadane i aktualny adres zasobu; dzięki temu identyfikator pozostaje ważny mimo migracji plików. Do najczęściej używanych PID należą: DOI (publikacje, zbiory danych), ORCID (autorzy), ARK i Handle (różne typy zasobów), a w katalogowaniu – ISBN/ISSN. Stosowanie PID wspiera realizację zasad FAIR (Findable, Accessible, Interoperable, Reusable), tj. odnajdywalności, dostępności, interoperacyjności i ponownego wykorzystania danych.
Linked Open Data (LOD) i ich znaczenie
W humanistyce cyfrowej PID funkcjonują w ekosystemie Linked Open Data – otwartych, połączonych danych publikowanych w standardowych formatach. Dane opisuje się w postaci trójek RDF (Resource Description Framework: podmiot–orzeczenie–dopełnienie), a każdy byt ma własny URI (Uniform Resource Identifier), czyli jednoznaczny identyfikator w sieci. Jeżeli dwa niezależne zbiory danych odwołują się do tego samego URI/PID, informacje o danym bycie mogą zostać automatycznie scalone, bez ręcznej synchronizacji rekordów. Zapytania do takich danych formułuje się w języku SPARQL, co umożliwia analizy relacyjne i różne formy wizualizacji (np. grafów powiązań).
Przykłady praktyczne
Przypisanie jednego PID postaci Mikołaja Kopernika sprawia, że opisy w wielu językach i repozytoriach (np. VIAF, GND, WorldCat, BnF, WikiHum) są rozpoznawane jako odnoszące się do tego samego bytu. W odniesieniu do miejscowości powiązanie wariantów „Gdańsk/Danzig/Gedanum” jednym identyfikatorem (np. Wikidata wraz z GeoNames) umożliwia spójne łączenie materiałów kartograficznych, opisów tekstowych i danych bazodanowych. Dzięki temu możliwe są precyzyjne kwerendy, bez konieczności manualnego przeglądania rozproszonych zasobów.
WikiHum jako wdrożenie podejścia PID/LOD
WikiHum – zbudowana na platformie Wikibase – integruje dane biograficzne i geograficzne (m.in. z PSB, AHP, Słownika historyczno-geograficznego, PRNG oraz egzonimów) w jednym grafie wiedzy. Każdy element otrzymuje trwały identyfikator (system Handle), a powiązania z rejestrami zewnętrznymi zwiększają interoperacyjność. Proces rekoncyliacji (uzgadniania) polega na dopasowaniu wartości z lokalnych zestawów danych do odpowiednich elementów w WikiHum; wzbogacanie umożliwia pobranie i dołączenie wybranych właściwości (np. współrzędnych, typów, dat, identyfikatorów zewnętrznych) do własnych tabel.
Jak cytować WikiHum?
Cytując element z WikiHum, podaj kolejno: etykietę elementu, trwały identyfikator Dariah.lab w formacie http://hdl.handle.net/..., datę ostatniej edycji strony elementu oraz datę dostępu. Przykład: Nowa Wieś, http://hdl.handle.net/20.500.12973/58983, [ostatnia edycja strony: 25.03.2025, dostęp: 16.05.2025]. Dopuszczalne są zarówno nawiasy kwadratowe, jak i okrągłe dla części z datami. Taki sformatowany zapis jest automatycznie dostępny w nagłówku strony każdego elementu i można go skopiować klikając ikonę ⧉.
Wnioski
Trwałe identyfikatory nie są rozwiązaniem doraźnym, lecz podstawowym warunkiem prowadzenia badań historycznych w środowisku cyfrowym. Zapewniają stabilne odwołania, umożliwiają automatyczne łączenie rozproszonych źródeł i wspierają analizy przekraczające granice pojedynczych projektów. W połączeniu z LOD i RDF tworzą infrastrukturę, w której dane historyczne stają się uporządkowanym i współdzielonym zasobem badawczym. Przejście od samej narracji do narracji powiązanej z danymi posiadającymi PID przyspiesza weryfikację, zwiększa powtarzalność ustaleń i otwiera nowe możliwości eksploracyjne dla osób rozpoczynających pracę z danymi historycznymi.
Kolory o wysokim kontraście
Rozmiar czcionki
Czcionka
