Denna serie
Datorlingvistisk grammatik
• Formella grammatiker, mest kontextfri.
Kontextfri grammatik, m.m.
• Beskriva spr˚ak m.h.a. kontextfri grammatik. – Linj¨ar precedens
http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/
– Konstituens – Kategorisering
Mats Dahll¨of
• Visst o¨ verlapp med och repetition av saker fr˚an Matematik f¨or spr˚akteknologer.
Institutionen f¨or lingvistik och filologi Februari 2011
2
1
Formell kontra traditionell grammatik
¨ Handkodad grammatik kontra maskinlarning
Tendenser (men mkt gemensamt, olika anv¨andning):
Tendenser i spr˚akteknologin, grovhuggen bild:
traditionell grammatik
formell grammatik
”handkodning”
maskininl¨arning
vaghet
precision
1950–1990-tal
senaste decenniet
heterogenitet
systematik
personalintensivt
dataintensivt
implicithet
explicithet
-
tr¨adbanker
robust
begr¨ansad t¨ackning
spr˚akspecifikt
tv¨arspr˚akliga metoder
ofta preskriptiv
vetenskaplig, empirisk
allm¨an grammatikteori
ST-orienterade metoder
ej direkt implementerbar
typiskt implementerbar
kvalitativ v¨ardering
kvantitativ v¨ardering
redan de gamla grekerna
1900-talssak
begr¨ansad t¨ackning
fokus p˚a robusthet
3
4
Kategorisk vs heuristisk analys • Kategorisk regler: Objekt antingen exemplifierar en kategori eller go¨ r det inte. Inga grader. Absoluta regler. R¨att/fel. (Grammatik i lingvistiken a¨ r ofta s˚adan.) • Heuristiska principer: Grader av exemplifierande. Os¨akerhet. Kan bygga p˚a statistik/sannolikhetsber¨akningar. (Vanligt inom spr˚akteknologin.) Inga anspr˚ak p˚a 100% korrekthet.
Formell grammatik: konstituens Konstituens: abstrakt del-helhetsbegrepp. Enkla konstituenter: (typiskt) ord. Sammansatta konstituenter: fraser. • omedelbar vs ”medelbar” konstituens (f¨or¨aldrar dominerar barn) • konstituensen placerar noderna i ett rotat tr¨ad • visas t.ex. som en graf: omedelbar konstituens blir streck • eller genom ”bracketing”: [i [l˚adan [p˚a [vinden]]]]
5
¨ precedens” ”Linjar
6
¨ (med kategorietiketter) Syntaxtrad
= grammatikens abstrakta linj¨ara ordning, S
(ordf¨oljd och frasf¨oljd) • motsvarar fo¨ re–efter i tal
NP
• motsvarar v¨anster–h¨oger i skrift • (Kan gl¨ommas bort, eftersom man f˚angar informationen ”gratis” genom talets fl¨ode i tiden och skriftens riktning p˚a pappret.)
7
VP
det
n
v
en
katt
˚ sag
NP det
n
flera
hundar
8
Grammatisk beskrivning av noder • Noderna svarar mot ord, fraser, satser och meningar. • Vi vill antagligen knyta en beskrivning av det spr˚akliga uttrycket till varje nod. – Enkel sak: en kategorisymbol. – Mer utvecklat: Strukturerade beskrivningar, t.ex. s¨ardragsstrukturer (senare p a˚ kursen).
¨ vanliga begransningar ¨ Syntaxtrad, Syntaxtr¨ad brukar lyda fo¨ ljande begr¨ansningar: • Omedelbara konstituensen (OK) ger just en tr¨adstruktur (utifr˚an ett a¨ ndligt antal noder). Tr¨ad (typ av graf): En nod har ingen fo¨ r¨alder; alla andra har precis en; ingen cirkularitet. (Noder som saknar barn kallas ”l¨ov”.) • Linj¨ar precedens o¨ verensst¨ammer med OK: Varje fras a¨ r linj¨art kontinuerlig. (Inga korsande grenar.) M.a.o. linj¨ar precedens ger ett ordnat tr¨ad. • Precis en kategori per nod. 10
9
˚ och grammatik i formell bemarkelse ¨ Sprak
Olika typer av formell grammatik
i formell, ”matematisk” mening (Chomsky).
Det finns olika typer av grammatiker som kan definiera olika klasser av o¨andliga spr˚ak, t.ex.
• Ett spr˚ak a¨ r en m¨angd str¨angar • En grammatik definierar ett spr˚ak. • En grammatik definierar en m¨angd syntaktiska strukturer (t.ex. tr¨ad) och d¨armed ett spr˚ak (eftersom vi kan l¨asa av en ordstr¨angen ur varje tr¨ad). • Detta a¨ r perspektivet i ”matematisk lingvistik”.
11
• Regulj¨ara uttryck • Kontextfria grammatiker (CFG) Det finns andra grammatiktyper som analyseras inom matematiska lingvistiken. ”Chomskyhierarkin” a¨ r den mest k¨anda uppst¨allningen.
12
Chomskyhierarkin
¨ Obegransad grammatik, typ 0
Avser klasser av automater, grammatiker och spr a˚ k.
En obegr¨ansad grammatik (omskrivningssystem) a¨ r en kvadrupel hN, T, P, Σi, d¨ar N a¨ r en m¨angd icke-terminaler (kategorisymboler), T a¨ r en m¨angd terminaler (ord), P a¨ r en m¨angd produktioner och Σ a¨ r en startsymbol.
typ automat
grammatik
spr˚ak
0
Turingmaskin
obegr¨ansad
rekursivt enumerabla
1
linj¨art begr¨ansad a. kontextk¨anslig
kontextk¨ansliga
2
stackmaskin
kontextfri
kontextfria
3
a¨ ndlig a.
linj¨ar
regulj¨ara
• En produktion a¨ r av formen α → β , d¨ar α a¨ r en icke-tom str¨ang o¨ ver N ∪ T (terminaler och icke-terminaler) och β a¨ r en str¨ang o¨ ver N ∪ T .
(regulj¨ara uttryck) 0–3: Fallande ber¨akningsm¨assig styrka, o¨ kande uttrycksm¨assiga begr¨ansningar, mindre klasser av spr˚ak. 13
14
¨ ˚ Grammatiker – harledning – sprak
¨ Begransade grammatiktyper, typ 1
Givet ett omskrivningssystem hN, T, P, Σi kan man h¨arleda:
Givet definitionen av omskrivningssystem kan vi st¨alla h˚ardare krav p˚a produktionerna.
• Str¨angen Σ (str¨ang av ensam startsymbol). • Givet att α → β ∈ P och att en str¨ang xα y (¨over N ∪ T ) kan h¨arledas (d¨ar x och y a¨ r godtyckliga str¨angar o¨ ver N ∪ T ), s˚a kan xβ y h¨arledas. Ett omskrivningssystem definierar det spr˚ak (i Chomskys mening) som best˚ar av alla de str¨angar av icke-terminaler som kan h¨arledas. Varje spr˚ak i Chomskyhierarkin kan definieras p˚a detta s¨att. (Typ 0.) 15
• Typ 1, kontextk¨anslig grammatik: Alla produktioner a¨ r av formen X1CX2 → X1 β X2 , d¨ar C ∈ N (d.v.s. a¨ r en icke-terminal), X1 , X2 ∈ N ∪ T ∪ {ε } (d.v.s. a¨ r en terminal, icke-terminal eller tomma str¨angen). Allts˚a, C f˚ar bara skrivas om till β n¨ar det f¨orekommer i en viss kontext, allts˚a X1 och X2 . (Mellan ε och ε betyder o¨ verallt.)
16
Typ 1, alternativ definition
¨ Begransade grammatiktyper, typ 2
Typ 1, kontextk¨anslig grammatik. Alternativt begrepp:
Givet definitionen av omskrivningssystem kan vi st¨alla a¨ n h˚ardare krav p˚a produktionerna.
• Alla produktioner a¨ r av formen α → β , d¨ar β l¨angre a¨ n eller lika l˚ang som α . • Detta ger en annan sorts grammatik, men den har precis samma styrka som kontextk¨anslig grammatik enligt tidigare definition.
• Typ 2, kontextfri grammatik Enbart produktioner av typen C → β , d¨ar d¨ar C ∈ N (d.v.s. a¨ r en icke-terminal). • ”Kontextfri” i j¨amf¨orelse med kontextk¨anslig grammatik.
• Denna kan kallas icke-kontraktiv grammatik (men kallas a¨ ven den kontextk¨anslig grammatik).
17
18
¨ Begransade grammatiktyper, typ 3
¨ uttryck: semantik (repetition) Reguljara
Givet ett definitionen av omskrivningssystem kan vi st¨alla h˚ardare krav p˚a produktionerna.
Regulj¨ara uttryck a¨ r ett annat s¨att att definiera spr˚ak av typ 3 (s.k. regulj¨ara spr˚ak).
• Typ 3, h¨ogerlinj¨ar grammatik. Enbart produktioner av typen C1 → tC2 och C1 → t, d¨ar C1 ,C2 ∈ N (d.v.s a¨ r icke-terminaler) och t ∈ T (d.v.s. a¨ r en terminal). • Alternativt begrepp: Spegelv¨anda begreppet v¨ansterlinj¨ar grammatik ger samma ber¨akningsm¨assiga styrka.
19
• Basuttryck: D(ε ) = {ε }. Om s ∈ Σ, d¨ar Σ a¨ r alfabetet, s˚a D(s) = {s}. • Konkatenering (ibland skrivs mer explicit R1 · R2 ist¨allet f¨or R1 R2 ): D(R1 R2 ) = {xy | x ∈ D(R1 ) och y ∈ D(R2 )}.
20
¨ uttryck: semantik (repetition) Reguljara
¨ Kontextfri grammatik (CFG) — trad F¨or en CFG g¨aller att ett tr¨ad till˚ats av omm:
• Union (alternativitet) (ibland skrivs R1 | R2 ist¨allet f¨or R1 ∪ R2 ) D(R1 ∪ R2 ) = {x | x ∈ D(R1 ) eller x ∈ D(R2 )}.
• Rotnoden (den utan f¨or¨alder) a¨ r m¨arkt med grammatikens startsymbol.
• Kleeneh¨olje (godtycklig sj¨alvkonkatenering) D(R∗) = {x1 x2 . . . xn | n ≥ 0 och xi ∈ D(R)}
• Varje f¨oa¨ ldranod med barn (=lokalt tr¨ad) matchar en regel i grammatiken.
• F¨orkortade skrivs¨att: R+ f¨or RR∗.
• L¨ovnoderna (lexikala, terminala) matchar lexikoning˚angar.
(R) (optionalitet i SWB 2.2.2) f¨or R ∪ ε .
21
En str¨ang till˚ats av grammatiken om det finns ett motsvarande tr¨ad.
22
¨ regler, lexikon Syntaxtrad,
¨ CFG, annu mer formellt • Vanligt s¨att att definiera en CFG formellt:
S NP
VP
det
n
v
en
katt
˚ sag
NP det
n
flera
hundar
23
S → NP VP NP → det n VP → v NP det → en n → katt v → s˚ag det → flera n → hundar
• En CFG a¨ r en kvadrupel hN, T, P, Σi, d¨ar N a¨ r m¨angden icke-terminaler (kategorisymboler), T a¨ r m¨angden terminaler (ord), P a¨ r m¨angden av regler (inklusive lexikoning˚angar) och Σ a¨ r startsymbol. • En CFG definierar en m¨angd tr¨ad och en m¨angd str¨angar icke-terminaler (allts˚a ett spr˚ak i Chomskys mening).
24
¨ CFG, annu mer formellt, exempel Exempel p˚a en CFG, hN, T, P, Σi (utifr˚an tidigare tr¨ad): • N = {S, NP, VP det, n, v} • T = {en, flera, hundar, katt, s˚ag} • P = { S → NP VP, NP → det n, VP → v NP,
˚ CFG och naturligt sprak • En CFG kommer i b¨asta fall att kunna f˚anga en delm¨angd (ett fragment) av ett naturligt spr˚ak. • Kategorierna m˚aste f˚anga alla syntaktiskt viktiga distinktioner. (De bildar en platt taxonomi.)
det → en , n → katt , v → s˚ag , det → flera , n → hundar } • Σ =S
• En bra grammatik fo¨ r ett fragment bo¨ r (liksom varje teoretisk redogo¨ relse) vara s˚a enkel s˚a m¨ojligt.
26
25
Fraser/konstituenter: distribution
Fraser/konstituenter: syntaktiska kategorier
Distribution: Vilka grammatiska satskontexter ett uttryck kan f¨orekomma i.
Grundprincip:
Om tv˚a fraser har olika distribution s a˚ finns det grammatiska satser i vilka det ena uttrycket fo¨ rekommer och d¨ar det inte kan bytas mot det andra utan att grammatikaliteten fo¨ rd¨arvas.
• Fraser med samma distribution tillh o¨ r samma kategori. • Fraser med olika distribution tillh o¨ r olika kategorier. Vi m˚aste kunna skilja p˚a den lilla hunden och det stora djuret kategorim¨assigt.
den lilla hunden och den stora katten har samma distribition. den lilla hunden och det stora djuret har olika distribution: Den lilla hunden a¨ r sn¨all.
Vi anv¨ander ofta ocks˚a vidare kategorier: Begreppet ”nominalfras” t¨acker in m˚anga olika nominalfraser som vi m˚aste kunna skilja p˚a.
*Det stora djuret a¨ r sn¨all. 27
28
¨ beskrivningar Problem med atomara
¨ beskrivningar Problem med atomara
Om vi i en kontextfri grammatik har en kategori f o¨ r substantiv i singularis obest¨amd form neutrum, nson, och en f¨or substantiv i singularis obest¨amd form utrum, nsou, s˚a blir nson och nsou lika olika som nson och VP.
• Om vi i en kontextfri grammatik har en kategori f o¨ r substantiv i singularis obest¨amd form neutrum, nson, och en f¨or substantiv i singularis obest¨amd form utrum, nsou, s˚a blir nson och nsou lika olika som nson och VP.
Viktig observation: Grammatisk information a¨ r flerdimensionell: Vi beh¨over ”molekyl¨ara”/dekomponerade/faktoriserade beskrivningar. Annars kan vi inte uttrycka m˚anga generaliseringar som vi borde kunna f˚anga.
• Vi m˚aste ha massor av regler f o¨ r att f˚a till alla sekvenser av t.ex. determinerare–adjektivfras–substantiv (i NP), en f o¨ r ¨ varje kongruensfall. (Ovning: skriv ner alla regler som beh¨ovs och ange hur lexikoning˚angar m˚aste se ut.) • CFG till˚ater ingenting enklare, p.g.a. att taxonomin a¨ r platt.
29
¨ beskrivningar Problem med atomara • Grammatisk information a¨ r flerdimensionell: Vi beho¨ ver ”molekyl¨ara”/dekomponerade/faktoriserade beskrivningar i grammatiken. • Det finns m˚anga generaliseringar som vi borde kunna f˚anga med som CFG inte till˚ater oss att uttrycka.
30
Exempel, tva˚ ord hund huset ordklass subst. subst.
(samma)
numerus sing.
(samma)
sing.
genus
utrum neutrum (olika)
species
obest. best.
(olika)
Orden har en n˚agra gemensamma s¨ardrag och n˚agra som skiljer dem a˚ t.
31
32