Jaki problem rozwiązuje WikiHum?

W badaniach historycznych często spotykamy się z powtarzalnością nazw i wariantami zapisu. Skutkiem są niejednoznaczności, duplikaty lub błędne scalanie danych. WikiHum rozwiązuje ten problem, nadając bytom (osobom, miejscowościom, instytucjom) trwałe, globalnie unikalne identyfikatory (system Handle) i osadzając informacje w modelu danych, który komputery potrafią jednoznacznie interpretować.

Typowe źródła niejednoznaczności – przykłady:

  • To samo imię i nazwisko: „Jan Kowalski” w kilku źródłach i epokach – bez kontekstu (miejsce, data, funkcja) trudno stwierdzić, o którego Jana chodzi.
  • Wiele miejsc o tej samej nazwie: „Nowa Wieś” występuje w wielu powiatach – bez doprecyzowania (województwo, powiat) rekordy mieszają się lub rozdzielają błędnie.
  • Warianty językowe: „Lwów” = „Lemberg” = „Leopolis” – to samo miasto w różnych językach i okresach.
  • Zmiany administracyjne: miejscowość, która w XVI w. była wsią królewską, a współcześnie jest dzielnicą miasta – czy to „ten sam byt”? Bez reguł i identyfikatorów powstają sprzeczne rekordy.

Jak pomaga WikiHum:

  • Każdy byt otrzymuje stabilny identyfikator DARIAH LAB (Handle), np. http://hdl.handle.net/20.500.12973/58983 (dla konkretnej „Nowej Wsi”).
  • Strona bytu zawiera jednoznaczne relacje (np. „typ miejscowości”, „położona w powiecie”, „współrzędne”) i odsyłacze do zewnętrznych rejestrów.

Koncepcja Sieci semantycznej i Linked Open Data

Sieć semantyczna (Semantic Web) nadaje danym strukturę i znaczenie, aby systemy informatyczne mogły je interpretować. Praktycznym filarem są Linked Open Data (LOD) – otwarte, połączone dane z jednoznacznymi identyfikatorami URI (Uniform Resource Identifier). Jeśli dwa zbiory użyją tego samego URI dla tego samego bytu, informacje mogą być automatycznie scalane.

Różnica: URL vs URI – krótkie porównanie

  • URL: wskazuje lokalizację pliku na serwerze (może przestać działać po zmianie struktury serwera lub przeniesieniu pliku).
  • URI: stały identyfikator rozwiązywany przez niezależną infrastrukturę (np. DOI/Handle) – pozostaje ważny mimo zmiany lokalizacji.

Uwaga: szczególny typem URI, zapewniającym trwałość odwołania, jest PID (Persistent Identifier) (zob. sekcja 🔗3.2 Idea trwałych identyfikatorów).

Przykłady identyfikatorów:

Efekt dla badań: dane z Polskiego Słownika Biograficznego, Atlasu Historycznego Polski czy słowników i lokalnych baz mogą tworzyć jedną, spójną sieć wiedzy. Zamiast ręcznie łączyć rekordy, system rozpoznaje wspólny byt po identyfikatorze.


Jak to działa w praktyce? (RDF i trójki)

W LOD fakty zapisuje się jako trójki RDF (Resource Description Framework): podmiotorzeczenie (właściwość) –dopełnienie. Podmiot i dopełnienie mają URI, dzięki czemu są jednoznaczne.

Przykład A (miejsce):

  • „Paryż jest stolicą Francji” ⇒ [URI:Paryż] — [jest stolicą państwa] — [URI:Francja]
  • „Muzeum Historii Naturalnej ma siedzibę w Paryżu” ⇒ [URI:Muzeum_Historii_Naturalnej] — [ma siedzibę w] — [URI:Paryż]

Przykład B (osoba):

  • „Jan Kowalski urodził się w Paryżu” ⇒ [URI:Jan_Kowalski] — [urodził się w] — [URI:Paryż]

Dlaczego to działa: gdy dwa zbiory wskażą ten sam URI (np. dla Gdańska), fakty łączą się spójnie. Zapytania w SPARQL pozwalają potem pytać graf o złożone relacje (np. „osoby urodzone w miejscowościach położonych w Małopolsce”).


WikiHum jako wdrożenie koncepcji LOD

WikiHum to instancja Wikibase. Każdy element (byt) ma identyfikator w formacie Q…, każda właściwość – P…. Strona elementu prezentuje deklaracje (trójki RDF) wraz z kwalifikatorami (doprecyzowania, np. zakres dat) i przypisami źródłowymi. Każdy element ma ponadto trwały identyfikator DARIAH LAB (Handle), który zapewnia stabilne, cytowalne odwołanie.

Przykład z WikiHum:

Cytowanie elementów WikiHum: podaj etykietę, identyfikator DARIAH LAB (Handle), datę ostatniej edycji i datę dostępu, np.:
Nowa Wieś, http://hdl.handle.net/20.500.12973/58983, [ostatnia edycja: 25.03.2025, dostęp: 16.05.2025].

Dostępność

Kolory o wysokim kontraście Kolory o wysokim kontraście

Rozmiar czcionki Rozmiar czcionki

1

Czcionka Czcionka