Kontrollerad ordförråd -
Controlled vocabulary

Från Wikipedia, den fria encyklopedin

Kontrollerade ordförråd ger ett sätt att organisera kunskap för efterföljande hämtning. De används i ämnesindexeringsscheman , ämnesrubriker , ordböcker , taxonomier och andra kunskapsorganisationssystem . Kontrollerade ordförrådsscheman föreskriver användning av fördefinierade, auktoriserade termer som har valts av planernas planerare, i motsats till naturliga språkförråd , som inte har någon sådan begränsning.

I biblioteks- och informationsvetenskap

Inom biblioteks- och informationsvetenskap är kontrollerad vokabulär en noggrant utvald lista med ord och fraser som används för att märka informationsenheter (dokument eller arbete) så att de lättare kan hämtas genom en sökning. Kontrollerade vokabulärer löser problemen med homografer , synonymer och polysem genom att koppla mellan begrepp och auktoriserade termer. Kort sagt, kontrollerade vokabulärer minskar tvetydigheten som är inneboende i normala mänskliga språk där samma koncept kan ges olika namn och säkerställa konsistens.

), bland andra svåra frågor.

Val av auktoriserade termer är baserade på principerna för användarrätt (vilka termer som användarna sannolikt kommer att använda), litterära teckningsoptioner (vilka termer som vanligtvis används i litteraturen och dokumenten), och strukturella teckningsoptioner (termer som valts genom att beakta strukturen, den kontrollerade vokabulären).

Kontrollerade vokabular hanterar vanligtvis också problemet med homografer med kvalificering. Exempelvis måste termen pool vara kvalificerad för att referera till antingen poolen eller spelpoolen för att säkerställa att varje godkänd term eller rubrik endast hänvisar till ett koncept.

Typer som används i bibliotek

Det finns två huvudtyper av kontrollerade ordförrådsverktyg som används i bibliotek: ämnesrubriker och synonymordböcker. Medan skillnaderna mellan de två minskar, finns det fortfarande några mindre skillnader.

Historiskt var ämnesrubriker utformade för att beskriva böcker i katalogkataloger av katalogister medan tesaurier användes av indexerare för att tillämpa indextermer på dokument och artiklar. Ämnesrubriker brukar ha en bredare omfattning som beskriver hela böcker, medan tesaurier tenderar att vara mer specialiserade som täcker mycket specifika discipliner. Också på grund av kortkatalogsystemet tenderar ämnesrubriker att ha termer som är i indirekt ordning (men med ökningen av automatiserade system tas detta bort), medan ordböckerna alltid är i direkt ordning. Ämnesrubriker brukar också använda mer förkoordinering av termer så att designern av det kontrollerade ordförrådet kommer att kombinera olika begrepp tillsammans för att bilda en godkänd ämnesrubrik. (t.ex. barn och terrorism) medan synonymordböcker brukar använda enstaka direkta termer. Slutligen listar tesaurierna inte bara motsvarande termer utan också smalare, bredare termer och relaterade termer bland olika auktoriserade och icke-auktoriserade termer, medan de flesta ämnesrubriker historiskt inte gjorde det.

Exempelvis hade biblioteket för kongressens ämnesrubrik inte mycket syndetisk struktur förrän 1943, och det var inte förrän 1985 då det började anta tesauri-termen " bredare term " och " smal term ".

De termer väljs och organiseras av utbildad personal (inklusive bibliotekarier och informations forskare) som besitter kompetens inom ämnesområdet. Kontrollerade ordförrådstermin kan exakt beskriva vad ett visst dokument egentligen handlar om, även om själva termerna inte förekommer i dokumentets text. Välkända ämnesrubriksystem inkluderar Library of Congress-systemet , MeSH och Sears . Välkända tesaurier inkluderar tesaurusen Art and Architecture och ERIC Thesaurus.

Att välja auktoriserade termer som ska användas är ett knepigt företag, förutom de områden som redan beaktats ovan, måste designern överväga specificiteten för den valda termen, om man ska använda direktinmatning, interkonsistens och språkstabilitet. Slutligen är mängden förkoordinat (i vilket fall graden av uppräkning kontra syntes blir ett problem) och postkoordinat i systemet är en annan viktig fråga.

Kontrollerade ordförrådselement (termer / fraser) som används som taggar , för att underlätta innehållsidentifieringsprocessen för dokument eller andra informationssystemsenheter (t.ex. DBMS, webbtjänster) betecknas som metadata .

Indexeringsspråk

Det finns tre huvudtyper av indexeringsspråk.

  • Kontrollerat indexeringsspråk - endast godkända termer kan användas av indexeraren för att beskriva dokumentet
  • Naturligt språkindexeringsspråk - valfri term från dokumentet i fråga kan användas för att beskriva dokumentet
  • Gratis indexeringsspråk - valfri term (inte bara från dokumentet) kan användas för att beskriva dokumentet

Vid indexering av ett dokument måste indexeraren också välja nivån på indexeringens uttömning, detaljnivån i vilken dokumentet beskrivs. Till exempel, med låg indexeringsutmattning, kommer mindre aspekter av arbetet inte att beskrivas med indextermer. I allmänhet ju högre indexeringsutmattning desto fler termer indexeras för varje dokument.

De senaste åren har fritextsökning som ett sätt att få tillgång till dokument blivit populärt. Detta innebär att man använder naturlig språkindexering med en indexering som är uttömmande inställd på maximalt (varje ord i texten indexeras ). Många studier har gjorts för att jämföra effektiviteten och effektiviteten av fritextsökningar mot dokument som har indexerats av experter med hjälp av några väl valda kontrollerade ordförrådsbeskrivare.

Fördelar

Kontrollerade ordförråd hävdas ofta för att förbättra noggrannheten för fritextsökning, till exempel för att minska irrelevanta objekt i hämtningslistan. Dessa irrelevanta föremål ( falska positiva ) orsakas ofta av det naturliga språkets inneboende tvetydighet . Ta till exempel det engelska ordet fotboll . Fotboll är namnet på ett antal olika lagsporter . Över hela världen är den mest populära av dessa lagsporter föreningsfotboll , som också råkar kallas fotboll i flera länder. Ordet fotboll tillämpas också på rugbyfotboll ( rugbyunion och rugby league ), amerikansk fotboll , australiensisk fotboll , gælisk fotboll och kanadensisk fotboll . En sökning efter fotboll kommer därför att hämta dokument som handlar om flera helt olika sporter. Kontrollerad vokabulär löser detta problem genom att märka dokumenten på ett sådant sätt att tvetydigheterna elimineras.

Jämfört med fritextsökning kan användningen av ett kontrollerat ordförråd dramatiskt öka prestandan för ett informationshämtningssystem, om prestanda mäts med precision (procentandelen dokument i hämtningslistan som faktiskt är relevanta för sökämnet).

I vissa fall kan kontrollerad ordförråd också förbättra återkallelsen, för till skillnad från naturliga språk är det inte nödvändigt att söka efter andra termer som kan vara synonymer för den termen.

Problem

En kontrollerad ordförrådssökning kan leda till otillfredsställande återkallande genom att den misslyckas med att hämta några dokument som faktiskt är relevanta för sökfrågan.

Detta är särskilt problematiskt när sökfrågan involverar termer som är tillräckligt tangentiella för ämnesområdet så att indexeraren kanske har bestämt sig för att märka den med en annan term (men sökaren kan överväga samma sak). I huvudsak kan detta endast undvikas av en erfaren användare av kontrollerad vokabulär vars förståelse av ordförrådet sammanfaller med indexerarens.

En annan möjlighet är att artikeln bara inte är taggad av indexeraren eftersom indexeringsutmattningen är låg. Till exempel kan en artikel nämna fotboll som ett sekundärt fokus och indexeraren kan besluta att inte märka den med "fotboll" eftersom den inte är tillräckligt viktig jämfört med huvudfokus. Men det visar sig att för sökaren är den artikeln relevant och därmed misslyckas återkallelsen. En fritextsökning skulle automatiskt plocka upp den artikeln oavsett.

Å andra sidan har fritextsökningar hög uttömmighet (varje ord söks), även om det har mycket lägre precision, har det potential för hög återkallelse så länge sökaren löser problemet med synonymer genom att ange varje kombination.

Kontrollerade vokabulärer kan bli föråldrade snabbt i kunskapsområden som utvecklas snabbt, såvida inte de auktoriserade villkoren uppdateras regelbundet. Även i ett idealiskt scenario är ett kontrollerat ordförråd ofta mindre specifikt än själva texten. Indexers som försöker välja lämpliga indextermer kan tolka författaren fel, medan detta exakta problem inte är en faktor i en fritext, eftersom den använder författarens egna ord.

Användningen av kontrollerade vokabulärer kan vara dyrt jämfört med fritextsökningar eftersom mänskliga experter eller dyra automatiserade system är nödvändiga för att indexera varje post. Dessutom måste användaren känna till det kontrollerade ordförrådsschemat för att utnyttja systemet på bästa sätt. Men som redan nämnts kan kontrollen av synonymer, homografier hjälpa till att öka precisionen.

Många metoder har utvecklats för att hjälpa till med skapandet av kontrollerade vokabularer, inklusive facetterad klassificering , vilket gör det möjligt att beskriva en given datapost eller ett dokument på flera sätt.

Applikationer

Kontrollerade ordförråd, såsom Library of Congress Subject Rubriker , är en viktig del av bibliografi , studier och klassificering av böcker. De utvecklades ursprungligen inom biblioteks- och informationsvetenskap . På 1950-talet började statliga myndigheter utveckla kontrollerade vokabulärer för den växande tidskriftslitteraturen inom specialområden; ett exempel är de medicinska ämnesrubrikerna (MeSH) som utvecklats av US National Library of Medicine . Därefter uppstod vinstdrivande företag (kallade abstraktion och indexeringstjänster) för att indexera den snabbt växande litteraturen inom alla kunskapsområden. På 1960-talet utvecklades en online bibliografisk databasindustri baserad på uppringning X.25- nätverk. Dessa tjänster gjordes sällan tillgängliga för allmänheten eftersom de var svåra att använda; specialbibliotekar kallade sökförmedlare hanterade sökjobbet. På 1980-talet dök de första databaserna med fulltext upp; dessa databaser innehåller hela texten till indexartiklarna samt bibliografisk information. Bibliografiska databaser online har migrerat till Internet och är nu allmänt tillgängliga; de flesta är dock proprietära och kan vara dyra att använda. Studenter som är inskrivna på högskolor och universitet kan ha tillgång till vissa av dessa tjänster utan kostnad; vissa av dessa tjänster kan vara tillgängliga utan kostnad i ett offentligt bibliotek.

Teknisk kommunikation

I stora organisationer kan kontrollerade vokabular införas för att förbättra teknisk kommunikation . Användningen av kontrollerad vokabulär säkerställer att alla använder samma ord för att betyda samma sak. Denna konsistens av termer är ett av de viktigaste begreppen inom teknisk skrivning och kunskapshantering , där man anstränger sig för att använda samma ord i ett dokument eller en organisation istället för lite olika för att hänvisa till samma sak.

Semantisk webb och strukturerad data

Webbsökning kan förbättras dramatiskt genom utvecklingen av en kontrollerad vokabulär för beskrivning av webbsidor; användningen av ett sådant ordförråd kan kulminera i en semantisk web , där innehållet på webbsidor beskrivs med hjälp av ett maskinläsbart metadataskema . Ett av de första förslagen för ett sådant system är Dublin Core Initiative. Ett exempel på en kontrollerad vokabulär som kan användas för indexering av webbsidor är PSH .

Det är osannolikt att ett enda metadata-system någonsin kommer att lyckas beskriva innehållet på hela webben. För att skapa en semantisk web kan det vara nödvändigt att dra från två eller flera metadatasystem för att beskriva innehållet på en webbsida. EXchangeable Faceted Metadata Language (XFML) är utformat för att möjliggöra kontrollerade ordförrådsskapare att publicera och dela metadatasystem. XFML är utformat efter facetterade klassificeringsprinciper .

Kontrollerade vokabular på Semantic Web definierar begreppen och relationerna (termer) som används för att beskriva ett intresseområde eller ett område av intresse. För att till exempel förklara en person i ett maskinläsbart format behövs en vokabulär som har den formella definitionen av "Person", såsom FOAF- vokabulär, som har en Personklass som definierar typiska egenskaper för en person inklusive, men inte begränsat till, namn, hedersprefix, tillhörighet, e-postadress och hemsida eller personordförrådet för Schema.org . På samma sätt kan en bok beskrivas med hjälp av bokens ordförråd på Schema.org och allmänna publikationsvillkor från Dublin Core- ordförrådet, en händelse med Event-ordförrådet för Schema.org , och så vidare.

För att använda maskinläsbara termer från vilken kontrollerad ordförråd som helst kan webbdesigners välja mellan olika annoteringsformat, inklusive RDFa, HTML5 Microdata eller JSON-LD i markeringen, eller RDF- serialiseringar (RDF / XML, Turtle, N3, TriG, TriX) i externa filer.

Se även

Referenser