¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Datorlingvistisk grammatik I (OH-serie 1)
˚ LEKTION 1: innehall • Kursformalia • Grammatik — formell grammatik. Metod och data (lite).
Mats Dahll¨of Institutionen f¨or lingvistik och filologi 060905
• Spr˚akteknologisk relevans.
(Med ej visade bilder!)
• Frasstrukturanalys och CFG (repetition).
• Grammatiska begrepp (viss repetition)
1
2
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Grammatikens delar (repetition)
Grammatik vs semantik (repetition)
• FONOLOGI ljudf¨orr˚adet, hur ljuden f˚ar kombineras (fonotax) • MORFOLOGI strukturen inom ord, hur morfer bildar ord • SYNTAX strukturen inom fraser(, satser och meningar) hur orden bildar st¨orre enheter
Relativt ”sv˚ar” distinktion, teoretiskt sett • GRAMMATIK (form) abstrakt form, ”grammatikalitet” • SEMANTIK (inneh˚all) spr˚akets relation till verkligheten, (syftning/referens) meningsfullhet och -l¨oshet, sant och falskt
3
4
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Formell vs traditionell grammatik
Formalisering i grammatiken
Tendenser (men mkt gemensamt, olika anv¨andning): formell grammatik
traditionell grammatik
precision
vaghet
systematik
heterogenitet
explicithet
implicithet
vetenskaplig, empirisk ofta preskriptiv ofta implementerbar
ej implementerbar
1900-talssak
redan de gamla grekerna
• Axiomatisering: axiom och h¨arledningsregler. Det blir helt uttryckligt vilka teorins konsekvenser (teorem) a¨ r. ¨ Onskem˚ al: • Systematik: Teorin skall vara enkel, begriplig och o¨ versk˚adlig. • Parsing och generering utifr˚an en grammatik b¨or vara implementerbart. Bra algoritmer b¨or finnas.
5
6
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Teori och data
Hypotetisk-deduktiv metod (1)
• En vetenskaplig teori formuleras normalt genom generella principer. (De g¨aller t.ex. ”modern svenska”.)
• Hypotetisk-deduktiv metod a¨ r en grundkomponent i vetenskapligt t¨ankande.
• Konsekvenser av teorin kallas teorem. Dessa kan vara partikul¨ara (g¨alla enskilda fall, t.ex. en enskild sats).
• Man formulerar en teori.
• Data: fakta om verkligheten som vi kan samla ihop genom att observera den. Eller (typiskt i grammatiken) genom att konsultera v˚ara ”intuitioner”. Exempelvis: En hund ska¨ ller a¨ r en grammatisk sats p˚a svenska.
• Man avvisar (reviderar) teorin om den inte st¨ammer.
7
• Pr¨ovar det teorin s¨ager mot verkligheten (data). • En teori som st¨ammer kan betraktas som vetenskapligt h˚allbar om man pr¨ovat den v¨al, d.v.s. letat ordentligt efter potentiellt falsifierande data. 8
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Hypotetisk-deduktiv metod (2)
Hypotetisk-deduktiv metod (3)
• Framst¨allningen i Sag, Wasow och Bender f¨oljer ofta hypotetisk-deduktiva tankebanor. • En teori (grammatik) st¨alls upp; konsekvenserna bed¨oms och teorin avvisas. • En ny teori (grammatik) st¨alls upp, och uts¨atts f¨or samma granskning. ¨ olika komponenter • Vitsen a¨ r att det skall framg˚a VARFOR i teorierna beh¨ovs.
• St¨all upp en teori (hypotes, som skall pro¨ vas). • Pr¨ova teorin(s teorem) mot data. St¨ammer den? – NEJ: Revidera teorin (st¨all upp en ny hypotes) och prova den p˚a samma s¨att. – JA: Forts¨att leta efter data och pr¨ova teorin mot dem. (Man kan ju aldrig bli s¨aker p˚a att teorin a¨ r OK, d˚a det hela tiden kan komma nya data.) Eller var fo¨ r tillf¨allet n¨ojd med teorin.
9
10
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Grammatikalitetsdata
Grammatikalitetsdata, exempel
• Data om vilka ordsekvenser som a¨ r grammatiskt OK (grammatiska) p˚a ett spr˚ak. • Om man kan ett spr˚ak s˚a har man ”intuitioner” om detta. • Dessa blir data mot vilka grammatiker kan bedo¨ mas. • Metodproblem: Kan ”vanligt” folk skilja mellan grammatiska och andra ”felaktigheter”?
• Svenska OK: Hon ser p˚a honom. Hon ser honom. Honom ser hon. • Svenska inte OK: *Hon ser honom p˚a. *Henne ser honom. *Ser honom hon.
11
12
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Korpusdata
Formell grammatik — historia (1)
• Korpus: stor samling med autentiska spr˚akexempel (texter eller samtal), visar hur folk faktiskt anv¨ander spr˚ak (representativitet). • Detta a¨ r kanske viktigare (f¨or en lingvist/spr˚akteknolog) a¨ n fr˚agan om grammatikalitet. • Korpusdata kan a¨ ven avsl¨oja relativa frekvenser hos olika grammatiska fenomen.
• Formalisering inom logiken, sent 1800-tal (Frege, m.fl.). • Kategorialgrammatik (Ajdukiewicz 1935, Bar-Hillel 1953) • ”Immediate constituency”, IC-analys, 1940-talet. Amerikansk lingvistik. • Noam Chomsky mitten av 1950-talet: Transformationsgrammatik. Syntactic Structures 1957.
• En korpus inneh˚aller s¨akert ”ogrammatiska” saker. 13
14
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Formell grammatik — historia (2)
˚ Sprakteknologisk relevans (1)
• ”Chomskyan revolution” — stor f¨or¨andring av spr˚akvetenskapen. Formell grammatik f˚ar en central st¨allning. ”Modern lingvistik”: 1960-talet. M˚anga olika skolor och teorier inom FG etableras. • Datorimplementationer — datorlingvistik: 1960-talet och fram˚at. Rik utveckling. • Se senaste decennierna: Formell grammatik kombineras med korpuslingvistik och statistiska metoder. Till¨ampningsorienterade perspektiv inom spr˚akteknologin. 15
Man beh¨over analysera grammatisk struktur i m˚anga spr˚akteknologiska till¨ampningar. • Grammatik-, stavnings- och stilkontroll (givetvis). • Informationss¨okning och -extraktion. • Maskin¨overs¨attning: analys av k¨allspr˚aket. • Talsyntes (intonation, disambiguering, etc).
16
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
˚ Sprakteknologisk relevans (2)
˚ Grammatik — sprak
Grammatik a¨ r a¨ ven viktigt i spr˚akteknologisk generering av yttranden/text:
i formell, ”matematisk” mening (Chomsky). • Ett spr˚ak a¨ r en m¨angd str¨angar
• Maskin¨overs¨attning: generering till m˚alspr˚aket.
• En grammatik definierar ett spr˚ak.
• Dialogsystem: generera yttranden.
• En grammatik definierar en m¨angd syntaktiska strukturer (t.ex. tr¨ad) och d¨armed ett spr˚ak (eftersom vi kan l¨asa av str¨angen ur tr¨adet).
• Pedagogiska program: generera ”problem”.
17
18
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Grammatikalitet
Morfem (repetition)
Ett naturligt spr˚ak erbjuder en o¨andlighet av (grammatiska) m¨ojligheter: • M˚anga grammatiska str¨angar kommer aldrig att anv¨andas. • M˚anga grammatiska str¨angar a¨ r semantisk sett udda (och d¨arf¨or oanv¨andbara). • M˚anga grammatiska str¨angar a¨ r s˚a komplexa att man inte kan h˚alla reda p˚a deras struktur.
• Grammatikens minsta enheter: de minsta betydelseb¨arande enheterna. (Jfr: fonem: de minsta betydelseskiljande enheterna.) • Vissa morfem kan st˚a som ord (fria morfem), t.ex. hus, semester, med, se, etc. • Andra morfem kan inte det (bundna morfem), t.ex. (hus)lig, (semester)n, (se)r, etc.
• Allts˚a: grammatisk 6= anv¨andbar (i spr˚aket) (Chomsky). 19
20
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Ord, lexem, ordformer (repetition)
Ord och morfem (repetition)
• Ord: teoretiskt ganska ”sv˚ara” typer av enhet. ”Sj¨alvklar” endast f¨or vissa skrivna spr˚ak. • Ordf¨orekomster: grammatiskt sett h˚art sammanbundna enheter. Betoning i uttal. • Lexem: ett ”uppslagsord” (abstrakt enhet). T.ex. verbet a¨ lska, substantivet bord. • B¨ojningsform: Mer konkret form ett lexem kan anta. Former av a¨ lska: a¨ lska (infintiv), a¨ lskar (presens), a¨ lskande (presens particip), o.s.v.
Fria morfem bildar ordformer. Andra ordformer a¨ r sammansatta, kombinationstyper: • B¨ojning (inom ett lexem), t.ex. hus-en-s, la¨ s-te-s. • Avledning (nytt lexem fr˚an annat), t.ex. l¨as-lig, l¨as-ning, hus-lig. (Avlett lexem kan i sin tur bo¨ jas.) • Sammans¨attning (tv˚a lexem kombineras till ett nytt), t.ex. husb˚at, gulg¨on, citronpaj. (Sammansatt lexem kan i sin tur b¨ojas.)
21
22
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Fraser/konstituenter (repetition)
Fraser/konstituenter: egenskaper
• Enheter som ”h¨anger ihop” grammatiskt. • Teoretisk motivation: fraser av ett slag kan fo¨ rekomma i olika kontexter. (Egna enheter av struktur.) Exempel: Den lilla hunden sk¨aller. (som subjekt) Lisa k¨opte den lilla hunden. (som objekt) Lisa tittade p˚a den lilla hunden. (som prepositions rektion) Beskrivningen av (olika slag av) nominalfraser m˚aste kunna ”˚ateranv¨andas” i olika sammanhang.
23
Egenskaper som ofta talar f¨or frasstatus: (ex. Lisa k¨opte den lilla hunden.) • Kan flyttas. Den lilla hunden var det som Lisa ko¨ pte. • Kan befr˚agas. Vad k¨opte Lisa? — Den lilla hunden. • Kan samordnas. Lisa k¨opte den lilla hunden och den stora katten. Semantiken kan st¨odja (och ligger bakom) v˚ara ”intuitioner” om frasstatus. 24
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Fraser/konstituenter: distribution
Fraser/konstituenter: syntaktiska kategorier
Distribution: Vilka grammatiska satskontexter ett uttryck kan f¨orekomma i.
Grundprincip:
Om tv˚a fraser har olika distribition s˚a finns det grammatiska satser i vilka det ena uttrycket f¨orekommer och d¨ar det inte kan bytas mot det andra utan att grammatikaliteten fo¨ rd¨arvas.
• Fraser med samma distribition tillho¨ r samma kategori. • Fraser med olika distribution tillho¨ r olika kategorier.
den lilla hunden och den stora katten har samma distribition.
Vi m˚aste kunna skilja p˚a den lilla hunden och det stora djuret kategorim¨assigt.
den lilla hunden och det stora djuret har olika distribition: Den lilla hunden a¨ r sn¨all. *Det stora djuret a¨ r sn¨all.
Vi anv¨ander ofta ocks˚a vidare kategorier: Begreppet ”nominalfras” t¨acker in m˚anga olika nominalfraser som vi m˚aste kunna skilja p˚a.
25
26
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Konstituens
¨ precedens” ”Linjar
Syntaxens abstrakta del-helhetsbegrepp: konstituens. Enkla konstituenter: (typiskt) ord. Sammansatta konstituenter: fraser.
= grammatikens abstrakta linj¨ara ordning, (ordf¨oljd och frasf¨oljd)
• omedelbar vs ”medelbar” konstituens (m¨odrar dominerar d¨ottrar) • konstituensen placerar noderna i en tr¨adstruktur • Visas som utritad graf: omedelbar konstituens blir streck
• motsvarar f¨ore-efter i tal • motsvarar v¨anster-h¨oger i skrift • (Gl¨oms l¨att bort, eftersom man f˚angar informationen ”gratis” genom talets fl¨ode i tiden och skriftens riktning p˚a pappret.)
• eller genom ”bracketing”: [i [l˚adan [p˚a [vinden]]]] 27
28
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ (med kategorietiketter) Syntaxtrad
Grammatisk beskrivning av noder
S
• Noderna svarar mot ord, fraser, satser och meningar.
NP det
• Vi m˚aste knyta en beskrivning av det spr˚akliga uttrycket till varje nod.
VP n
v
en katt s˚ag
• Minimalt: en kategorisymbol (som i kontextfri grammatik)
NP det
n
• Mer utvecklat: Strukturerade beskrivningar, t.ex. s¨ardragsstrukturer.
flera hundar
29
30
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ logiska begransningar, ¨ Trad, etc.
¨ typisk relation Grammatik — trad:
• Omedelbara konstituensen (OK) ger just en tr¨adstruktur (utifr˚an ett a¨ ndligt antal noder). (Tr¨ad (typ av graf): En nod har ingen moder; alla andra har precis en; ingen cirkularitet.) • Linj¨ar precedens o¨ verensst¨ammer med OK. Alla d¨ottrar ordnas linj¨art p˚a ”r¨att” s¨att. • Precis en beskrivning per nod. • Noder som saknar d¨ottrar kallas ”l¨ov”. 31
F¨or en kontextfri grammatik (CFG) g¨aller att ett tr¨ad till˚ats av grammatiken omm: • Rotnoden (den utan moder) a¨ r m¨arkt med grammatikens startsymbol. • Varje modernod med dotternoder (=lokalt tr¨ad) matchar en regel i grammatiken. • L¨ovnoderna (lexikala, terminala) matchar lexikoning˚angar.
32
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ regler, lexikon Syntaxtrad,
¨ CFG, annu mer formellt
S NP det
S → NP VP NP → det n VP → v NP det → en n → katt v → s˚ag det → flera n → hundar
VP n
v
en katt s˚ag
NP det
n
flera hundar
• Vanligt s¨att att definiera en CFG formellt: • En CFG a¨ r en kvadrupel hN, T, P, Si, d¨ar N a¨ r m¨angden icke-terminaler (kategorisymboler), T a¨ r m¨angden terminaler (ord), P a¨ r m¨angden av regler (inklusive lexikoning˚angar) och Σ a¨ r startsymbol. • En CFG definierar en m¨angd tr¨ad och en m¨angd str¨angar icke-terminaler (allts˚a ett spr˚ak i Chomskys mening).
33
34
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ CFG, annu mer formellt, exempel
Parsing — tva˚ begrepp
Exempel p˚a en CFG, hN, T, P, Σi (utifr˚an tidigare tr¨ad):
Parsing — engelska ordet f¨or satsl¨osning.
• N = {S, NP, VP det, n, v} • T = {en, flera, hundar, katt, s˚ag} • P = { S → NP VP, NP → det n, VP → v NP, det → en , n → katt , v → s˚ag , det → flera , n → hundar } • Σ =S
• Matematisk bem¨arkelse: R¨akna ut en str¨angs analys (eventuellt tr¨ad) givet en grammatik. • Empirisk/spr˚akteknologiskt praktisk bem¨arkelse: R¨akna ut den syntaktiska strukturen hos naturligt f¨orekommande spr˚ak. Vilken sorts spr˚ak? Hur fullst¨andigt? Med vilka begrepp? Med vilken grad av korrekthet/precision/recall f¨or olika aspekter? Viktigt: robusthet, hantering av ”ogrammatiskt” material.
35
36
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
¨ Datorlingvistisk grammatik I — HT 2006 (Mats Dahllof)
Parsingalgoritmer (1)
Parsingalgoritmer (2)
• Algoritmer: ”Mekaniska” (effektiva) procedurer fo¨ r att l¨osa givna problem, eller (mer tekniskt), ber¨akna funktioner. Allts˚a: Den ”abstrakta principen” bakom ett program. (S˚a att samma algoritm kan implementeras p˚a olika s¨att och i olika programspr˚ak.) • Parsing i teknisk bem¨arkelse (och i svenskan): syntaktisk analys i dator, b˚ade av naturligt och artificiellt spr˚ak.
37
• Parsingalgoritm: En algoritm som givet en typ av grammatik, och en str¨ang av symboler r¨aknar ut en m¨angd analyser (typiskt syntaxtr¨ad) som grammatiken tilldelar str¨angen. • Olika urval analyser: alla (om grammatiken till˚ater ambiguitet), ”b¨asta” (utifr˚an n˚agon rangordning), en enda, etc. • ”Recognition” — n¨ar man bara f˚ar ett ja eller nej till fr˚agan om grammatiken kan generera str¨angen. 38