Jaki problem rozwiązuje WikiHum?
W badaniach historycznych często spotykamy się z powtarzalnością nazw i wariantami zapisu. Skutkiem są niejednoznaczności, duplikaty lub błędne scalanie danych. WikiHum rozwiązuje ten problem, nadając bytom (osobom, miejscowościom, instytucjom) trwałe, globalnie unikalne identyfikatory (system Handle) i osadzając informacje w modelu danych, który komputery potrafią jednoznacznie interpretować.
Typowe źródła niejednoznaczności – przykłady:
- To samo imię i nazwisko: „Jan Kowalski” w kilku źródłach i epokach – bez kontekstu (miejsce, data, funkcja) trudno stwierdzić, o którego Jana chodzi.
- Wiele miejsc o tej samej nazwie: „Nowa Wieś” występuje w wielu powiatach – bez doprecyzowania (województwo, powiat) rekordy mieszają się lub rozdzielają błędnie.
- Warianty językowe: „Lwów” = „Lemberg” = „Leopolis” – to samo miasto w różnych językach i okresach.
- Zmiany administracyjne: miejscowość, która w XVI w. była wsią królewską, a współcześnie jest dzielnicą miasta – czy to „ten sam byt”? Bez reguł i identyfikatorów powstają sprzeczne rekordy.
Jak pomaga WikiHum:
- Każdy byt otrzymuje stabilny identyfikator DARIAH LAB (Handle), np.
http://hdl.handle.net/20.500.12973/58983(dla konkretnej „Nowej Wsi”). - Strona bytu zawiera jednoznaczne relacje (np. „typ miejscowości”, „położona w powiecie”, „współrzędne”) i odsyłacze do zewnętrznych rejestrów.
Koncepcja Sieci semantycznej i Linked Open Data
Sieć semantyczna (Semantic Web) nadaje danym strukturę i znaczenie, aby systemy informatyczne mogły je interpretować. Praktycznym filarem są Linked Open Data (LOD) – otwarte, połączone dane z jednoznacznymi identyfikatorami URI (Uniform Resource Identifier). Jeśli dwa zbiory użyją tego samego URI dla tego samego bytu, informacje mogą być automatycznie scalane.
Różnica: URL vs URI – krótkie porównanie
- URL: wskazuje lokalizację pliku na serwerze (może przestać działać po zmianie struktury serwera lub przeniesieniu pliku).
- URI: stały identyfikator rozwiązywany przez niezależną infrastrukturę (np. DOI/Handle) – pozostaje ważny mimo zmiany lokalizacji.
Uwaga: szczególny typem URI, zapewniającym trwałość odwołania, jest PID (Persistent Identifier) (zob. sekcja 🔗3.2 Idea trwałych identyfikatorów).
Przykłady identyfikatorów:
- Osoba naukowa: ORCID, np.
https://orcid.org/0000-0002-1825-0097. - Publikacja/dane: DOI, np.
https://doi.org/10.1234/abcd. - Byty w grafach wiedzy: URI, np.
http://www.wikidata.org/entity/Q1799(Gdańsk). - WikiHum (Handle): np.
http://hdl.handle.net/20.500.12973/58983(konkretna „Nowa Wieś”).
Efekt dla badań: dane z Polskiego Słownika Biograficznego, Atlasu Historycznego Polski czy słowników i lokalnych baz mogą tworzyć jedną, spójną sieć wiedzy. Zamiast ręcznie łączyć rekordy, system rozpoznaje wspólny byt po identyfikatorze.
Jak to działa w praktyce? (RDF i trójki)
W LOD fakty zapisuje się jako trójki RDF (Resource Description Framework): podmiot – orzeczenie (właściwość) –dopełnienie. Podmiot i dopełnienie mają URI, dzięki czemu są jednoznaczne.
Przykład A (miejsce):
- „Paryż jest stolicą Francji” ⇒
[URI:Paryż] — [jest stolicą państwa] — [URI:Francja] - „Muzeum Historii Naturalnej ma siedzibę w Paryżu” ⇒
[URI:Muzeum_Historii_Naturalnej] — [ma siedzibę w] — [URI:Paryż]
Przykład B (osoba):
- „Jan Kowalski urodził się w Paryżu” ⇒
[URI:Jan_Kowalski] — [urodził się w] — [URI:Paryż]
Dlaczego to działa: gdy dwa zbiory wskażą ten sam URI (np. dla Gdańska), fakty łączą się spójnie. Zapytania w SPARQL pozwalają potem pytać graf o złożone relacje (np. „osoby urodzone w miejscowościach położonych w Małopolsce”).
WikiHum jako wdrożenie koncepcji LOD
WikiHum to instancja Wikibase. Każdy element (byt) ma identyfikator w formacie Q…, każda właściwość – P…. Strona elementu prezentuje deklaracje (trójki RDF) wraz z kwalifikatorami (doprecyzowania, np. zakres dat) i przypisami źródłowymi. Każdy element ma ponadto trwały identyfikator DARIAH LAB (Handle), który zapewnia stabilne, cytowalne odwołanie.
Przykład z WikiHum:
- Rozróżnienie miejscowości o tej samej nazwie:
- „Nowa Wieś” w pow. myślenickim (woj. małopolskie):
Q58983, Handlehttp://hdl.handle.net/20.500.12973/58983. - „Nowa Wieś” w pow. rzeszowskim (woj. podkarpackie): inny
Q58912, Handlehttp://hdl.handle.net/20.500.12973/58912(oddzielny byt).
- „Nowa Wieś” w pow. myślenickim (woj. małopolskie):
Cytowanie elementów WikiHum: podaj etykietę, identyfikator DARIAH LAB (Handle), datę ostatniej edycji i datę dostępu, np.: Nowa Wieś, http://hdl.handle.net/20.500.12973/58983, [ostatnia
edycja: 25.03.2025, dostęp: 16.05.2025].
Kolory o wysokim kontraście
Rozmiar czcionki
Czcionka
