Definition af disambiguation i sprogstudier

I lingvistik, disambiguation er processen til at bestemme, hvilken følelse af a ord bruges i et bestemt sammenhæng. Også kendt som leksikalsk disambiguering.

I computing-sprogvidenskab kaldes denne diskriminerende proces Word-sense disambiguation (WSD).

Eksempler og observationer

”Det sker så, at vores meddelelse, i forskellige Sprog både gør det muligt at bruge den samme ordform til at betyde forskellige ting i individuelle kommunikative transaktioner. Konsekvensen er, at man i en bestemt transaktion er nødt til at regne ud den tilsigtede betydning af et givet ord blandt dets potentielt tilknyttede sanser. Mens flertydigheder der stammer fra sådanne flere form-meningsforeninger er ved leksikalsk niveau, skal de ofte løses ved hjælp af en større kontekst fra diskurs indlejring af ordet. Derfor kunne de forskellige sanser af ordet 'tjeneste' kun fortælles fra hinanden, hvis man kunne se ud over selve ordet, som i kontrast til ' spillerens service på Wimbledon 'med' tjeneren's service i Sheraton. ' Denne proces med at identificere ordbetydninger i en diskurs er generelt kendt som

instagram viewer

ordfølelse disambiguation (WSD). "(Oi Yee Kwong, Nye perspektiver på Computational og Cognitive Strategies for Word Sense Disambiguation. Springer, 2013)

Lexical Disambiguation and Word-Sense Disambiguation (WSD)

"leksikalsk disambiguation i dens bredeste definition er intet mindre end at bestemme betydningen af hvert ord i sammenhæng, der ser ud til at være en stort set ubevidst proces hos mennesker. Som et beregningsproblem beskrives det ofte som 'AI-komplet', dvs. et problem, hvis løsning forudsætter, at en løsning skal afsluttes naturligt sprog forståelse eller begrundelse i sund fornuft (Ide og Véronis 1998).

"På området sprogvidenskab kaldes problemet generelt word sense disambiguation (WSD) og defineres som problemet med beregningsmæssigt at bestemme, hvilken 'fornemmelse' af et ord aktiveres ved brug af ordet i et bestemt sammenhæng. WSD er i det væsentlige en klassificeringsopgave: ordfølelser er klasserne, konteksten giver bevis, og hver forekomst af et ord tildeles en eller flere af dets mulige klasser baseret på beviser. Dette er den traditionelle og almindelige karakterisering af WSD, der ser det som en eksplicit proces med disambiguering med hensyn til en fast opgørelse af ordssanser. Ord antages at have et begrænset og diskret sæt sanser fra a ordbog, en leksikalsk videnbase eller en ontologi (i sidstnævnte svarer sanser til begreber, som et ord leksikaliserer). Anvendelsesspecifikke inventar kan også bruges. I en maskineoversættelsesindstilling (MT) kan man for eksempel behandle ordoversættelser som ordsanser, en tilgang, der bliver stadig mere gennemførlig på grund af tilgængeligheden af store flersprogede parallel korpora der kan fungere som træningsdata. Den faste opgørelse af traditionel WSD reducerer kompleksiteten af problemet, men der findes alternative felter.. .. "(Eneko Agirre og Philip Edmonds," Introduktion. " Word Sense disambiguation: algoritmer og applikationer. Springer, 2007)

Homonymitet og disambiguering

"leksikalsk disambiguation er velegnet især til tilfælde af enslydendefor eksempel en forekomst af bas skal kortlægges på en af de leksikale emner bassen₁ eller bas₂, afhængigt af den tilsigtede betydning.

"Leksikalsk disambiguering indebærer et kognitivt valg og er en opgave, der hæmmer forståelsesprocesser. Det skal adskilles fra processer, der fører til en differentiering af ordfølelser. Den førstnævnte opgave udføres temmelig pålideligt også uden meget kontekstuel information, mens den sidstnævnte ikke er det (jfr. Veronis 1998, 2001). Det er også vist, at homonyme ord, der kræver disambiguering, bremser leksikalsk adgang, mens polysemøse ord, der aktiverer en mangfoldighed af ordfølelser, fremskynder leksikalsk adgang (Rodd e.a. 2002).

"Både den produktive ændring af semantiske værdier og det enkle valg mellem leksikalt forskellige emner har til fælles, at de kræver yderligere ikke-leksikalsk information. "(Peter Bosch," Produktivitet, polysemi og Predikatindeksualitet. " Logik, sprog og beregning: 6. Internationale Tbilisi-symposium om logik, sprog og beregning, red. af Balder D. ten Cate og Henk W. Zeevat. Springer, 2007)

Lexical kategori disambiguation og princippet om sandsynlighed

"Corley og Crocker (2000) præsenterer en bred dækningsmodel af leksikalsk kategoridisambiguation baseret på Princippet om sandsynlighed. Specifikt foreslår de, at for en sætning bestående af ord w₀... w_n, sætningsprocessor vedtager det mest sandsynlige del af tale sekvens t₀... t_n. Mere specifikt udnytter deres model to enkle sandsynligheder: (jeg) den betingede sandsynlighed for ord w_jeg givet en bestemt del af talen t_jeg, og (ii) sandsynligheden for t_jeg givet den foregående del af talen t_i-1. Når hvert ord i sætningen findes, tildeler systemet det den del af tale t_jeg, der maksimerer produktet af disse to sandsynligheder. Denne model udnytter den indsigt, som mange syntaktiske uklarheder har et leksikalt grundlag (MacDonald et al., 1994) som i (3):

(3) Lagerpriserne / mærkerne er billigere end resten.

"Disse sætninger er midlertidigt tvetydige mellem en læsning, hvor priser eller mærker er hovedudsagnsord eller del af en sammensat substantiv. Efter at have været trænet i et stort korpus, forudsiger modellen den mest sandsynlige del af talen for priser, korrekt redegør for det faktum, at folk forstår pris som navneord men mærker som et verb (se Crocker & Corley, 2002, og referencer citeret deri). Modellen tegner sig ikke kun for en række disambigueringsindstillinger, der er rodfæstet i leksikalsk kategori tvetydighed, forklarer det også, hvorfor folk generelt er meget nøjagtige med at løse sådanne uklarheder. " (Matthew W. Crocker, "Rationelle modeller for forståelse: Adressering af performanceparadokset." 21-århundrede psykolingvistik: Fire hjørnestener, red. af Anne Cutler. Lawrence Erlbaum, 2005)