Ontologie dla agentowego internetu — jak LLM-y zmieniają projektowanie wiedzy maszynowej

Najważniejsze wnioski w pigułce

Nowa rola ontologii w erze AI:

Ontologie przestają być wyłącznie formalnymi modelami wymiany danych — stają się wykonywalnymi strukturami pamięci dla agentów AI
Głównym konsumentem ontologii nie jest już baza danych czy wyszukiwarka, lecz agent AI podejmujący decyzje i działania
Ontologie muszą być czytelne zarówno dla systemów symbolicznych, jak i dla modeli językowych

Zmiany w inżynierii ontologicznej:

LLM-y automatyzują ekstrakcję terminów, proponowanie klas, definiowanie relacji i walidację modeli
Projektowanie ontologii staje się iteracyjne, konwersacyjne i częściowo zautomatyzowane
Inżynier ontologii ewoluuje od manualnego modelowania ku orkiestracji semantycznych workflow

Warstwa leksykalna i retrieval:

Agenty AI potrzebują warstwy łączącej język naturalny z formalnym grafem wiedzy
Właściwości jak seovoc:embeddingText definiują, jak encje powinny być reprezentowane w przestrzeni wektorowej
Retrieval oparty na semantyce wymaga połączenia reprezentacji leksykalnych, symbolicznych i wektorowych

Od logiki do czytelności dla agentów:

Ontologie hybrydowe łączą formalną precyzję z bogatymi opisami języka naturalnego
Pola takie jak rdfs:comment czy skos:definition przestają być tylko dokumentacją — stają się interfejsem semantycznym dla LLM-ów
Walidacja poprzez SHACL staje się wykonywalna specyfikacją dla agentów

Internet semantyczny od lat obiecywał maszynom zrozumienie ludzkiej wiedzy. Dziś, w erze agentów AI wyposażonych w duże modele językowe (LLM), ontologie zyskują nową funkcję — zamiast być tylko formalnymi artefaktami do interoperacyjności, stają się wykonywalnymi strukturami pamięci, które pomagają agentom wyszukiwać, walidować, zapamiętywać, planować i działać bez utraty znaczenia.

Klasyczna definicja ontologii i jej ewolucja

Klasyczna definicja ontologii, autorstwa Toma Grubera i rozwinięta przez Nicolę Guarino oraz Aldo Gangemiego, określa ją jako „formalną, jawną specyfikację współdzielonej konceptualizacji". Ontologia przekształca ukrytą strukturę domeny w model zrozumiały dla maszyn, czyniąc milczącą wiedzę ludzką jawną i operacyjną.

Ta wizja stała się fundamentem Web Semantyczny przedstawionego przez Tima Bernersa-Lee, Jamesa Hendlera i Orę Lassila w artykule z 2001 roku w „Scientific American". Opisali oni sieć, w której informacja niesie dobrze zdefiniowane znaczenie, umożliwiając maszynom i ludziom skuteczną współpracę.

Technologie takie jak RDF, RDFS, OWL, SKOS i SHACL stworzyły ekosystem narzędzi do formalizacji wiedzy, publikowania semantyki i integracji danych. Trajektoria była jasna: sformalizuj domenę, opublikuj semantykę, zintegruj dane i pozwól maszynom rozumować.

Jednak inżynieria ontologiczna była powolna, wymagała specjalistycznej wiedzy i tworzyła trwałą lukę między tym, co ludzie chcieli wyrazić, a tym, co systemy produkcyjne mogły zoperacjonalizować. Pojawienie się LLM-ów zmieniło tę sytuację fundamentalnie.

LLM-y jako akcelerator iteracyjnej inżynierii ontologicznej

Duże modele językowe zmieniają projektowanie ontologii, ponieważ operują na materiale, z którego ontologie się rodzą — na języku naturalnym. Mogą czytać dokumenty, ekstrahować terminy, proponować klasy, sugerować definicje, identyfikować relacje, generować pytania kompetencyjne i walidować, czy model oddaje zamierzone znaczenie domeny.

To nie czyni inżynierów ontologii zbędnymi — zmienia ich rolę. Inżynier staje się mniej manualnym modelarzem, a bardziej orkiestratorem semantycznych workflow: kieruje ekstrakcją, recenzuje sugestie, rozwiązuje niejednoznaczności i decyduje, które części domeny wymagają formalizacji.

Badania takie jak LLMs4OL eksplorują, jak LLM-y mogą wspierać uczenie ontologii. Systemy jak OntoGPT łączą prompty, LLM-y i uziemienie oparte na ontologiach, aby ekstrahować strukturalną wiedzę z tekstu. Projekty takie jak Agent-OM badają, jak agenty LLM mogą wspierać dopasowywanie ontologii poprzez planowanie, pamięć i narzędzia.

Projektowanie ontologii staje się konwersacyjne, iteracyjne i półautomatyczne. Głębsza zmiana dotyczy jednak nie tylko sposobu budowania ontologii, ale także tego, jak są one pisane i dla kogo.

Od logiki formalnej do ontologii czytelnych dla agentów

Tradycyjny stos ontologiczny priorytetował formalną precyzję: klasy, właściwości, domeny, zakresy, restrykcje, kardynalności i aksjomaty. To pozostaje istotne, ale LLM-y słabo konsumują znaczenie wyłącznie poprzez logikę formalną. Czerpią znaczenie z tokenów, przykładów, opisów, wskazówek leksykalnych, embeddingów, schematów narzędzi i odzyskanych dowodów.

To przesuwa składnię ontologii w stronę formy hybrydowej: część formalny model, część interfejs językowy. Każda klasa, właściwość, encja i kształt coraz bardziej korzysta z bogatszych pól języka naturalnego. Właściwości takie jak rdfs:comment, skos:definition, skos:scopeNote, skos:example, schema:description i dcterms:description nie są już tylko dokumentacją — są semantycznymi interfejsami dla modeli językowych.

W klasycznej ontologii komentarz pomaga człowiekowi zrozumieć klasę. W ontologii zorientowanej na agenty ten sam komentarz może wpływać na retrieval, ekstrakcję, dezambiguację, wybór narzędzi, uziemienie i generowanie. Ontologia staje się czytelna zarówno dla systemów symbolicznych, jak i modeli językowych.

Warstwa leksykalna i retrieval oparty na semantyce

Jak argumentuje Microsoft w swojej pracy nad retrieval dla agentowego internetu (Web IQ), jakość systemu AI coraz bardziej zależy od jego zdolności do łączenia generowanych wyników z wiarygodnymi, relewantnymi i weryfikowalnymi informacjami. Retrieval staje się mechanizmem, dzięki któremu agenty utrzymują zgodność z rzeczywistością i podejmują godne zaufania decyzje.

Formalna ontologia definiuje znaczenie encji i relacji, ale agent potrzebuje również odkrywać te encje z języka naturalnego, odzyskiwać wspierające dowody i ponownie łączyć odzyskane informacje ze strukturalnym zrozumieniem domeny. Wyzwaniem nie jest tylko modelowanie semantyczne, ale semantyczne uziemienie.

W naszej pracy w WordLift dostrzegliśmy potrzebę dodatkowej warstwy między formalnym grafem a agentem: warstwy leksykalnej i retrieval. Formalna ontologia definiuje znaczenie rzeczy. Warstwa leksykalna definiuje, jak te rzeczy pojawiają się w języku, jak są wspominane, jak są wyszukiwane, jak mogą być mylone i jak można je połączyć z dowodami.

Agent AI zazwyczaj nie zaczyna od zapytania SPARQL. Zaczyna od pytania użytkownika, zadania, opisu produktu lub fragmentu konwersacji. Agent musi przejść od języka do encji, od encji do dowodów i od dowodów z powrotem do uziemionej odpowiedzi lub działania.

Dlatego w SEOVOC wprowadziliśmy atrybuty takie jak seovoc:embeddingText i seovoc:embeddingValue. Właściwość seovoc:embeddingText definiuje tekstową reprezentację, która powinna zostać osadzona dla encji. seovoc:embeddingValue przechowuje lub odnosi się do wynikowej reprezentacji wektorowej.

Ontologia nie tylko opisuje encję — opisuje, jak encja powinna wejść do przestrzeni wektorowej. Mówi systemowi, jaki język powinien stać się pamięcią, które sygnały semantyczne należy zachować i jak odzyskane dowody powinny ponownie połączyć się z kanonicznymi encjami w grafie. Ontologia zaczyna nosić instrukcje dla formowania pamięci.

Wyszukiwanie wektorowe samo w sobie nie jest pamięcią. Wyszukiwanie wektorowe odzyskuje podobieństwo. Pamięć ontologiczna odzyskuje podobieństwo w relacji do tożsamości, typu, pochodzenia, kontekstu, czasu i zadania. Warstwa pamięci musi być strukturalnym środowiskiem retrieval, gdzie reprezentacje leksykalne, symboliczne i wektorowe wzajemnie się wzmacniają.

Walidacja — mniej kruchych negacji, więcej wykonalnych ograniczeń

Klasyczna inżynieria ontologiczna często używa negatywnych ograniczeń: rozłącznych klas, klas komplementarnych i negatywnych asercji właściwości. Pozostają one wartościowe dla formalnego rozumowania, ale są trudne do przetworzenia przez LLM-y w kontekście generatywnym.

Ograniczenia oparte na negacji powinny być wykonywane w warstwach walidacji, a nie luźno interpretowane w kontekście generatywnym. Ontologia zorientowana na agenty wyraża więcej świata w kategoriach tego, co jest możliwe, oczekiwane, dozwolone i wymagane.

SHACL zaczął jako sposób walidacji grafów RDF, ale jego rola się rozszerza. Specyfikacja SHACL 1.2 jawnie określa kształty jako użyteczne do walidacji, wnioskowania, modelowania domeny, generowania ontologii informujących agenty, budowania interfejsów użytkownika, generowania kodu i integracji danych.

Jak podkreśla Veronika Heimsbakk, autorka „SHACL for the Practitioner": uczynienie ontologii operacyjnymi wymaga traktowania zasobów semantycznych jako wykonalnych specyfikacji. Ontologie stają się praktycznymi instrumentami kierującymi tym, jak dane są tworzone, wymieniane, walidowane i konsumowane przez aplikacje i agenty.

OWL pomaga nam definiować konceptualną strukturę świata. SHACL pomaga nam definiować, jak wyglądają prawidłowe, użyteczne i wykonalne dane w praktyce. Dla agentów AI to rozróżnienie jest kluczowe.

Podsumowanie

Ontologie wchodzą w nową fazę swojego rozwoju. Przestają być wyłącznie formalnymi modelami współdzielonej konceptualizacji — stają się wykonywalnymi strukturami pamięci i działania dla agentów AI. Hybrydowe ontologie łączące formalną precyzję z bogatymi opisami językowymi, warstwą leksykalną dla retrieval i walidacją SHACL jako wykonalną specyfikacją tworzą infrastrukturę semantyczną dla nowej generacji inteligentnych systemów. W erze agentowego internetu ontologie to nie tylko sposób na zrozumienie ludzkiej wiedzy przez maszyny — to sposób, w jaki ludzie utrzymują inteligencję maszynową uziemioną, inspekcyjną i użyteczną.

Źródło: WordLift, „Ontologies for the Agentic Web", opublikowano 5 czerwca 2026