Daniel Ridings og Oddrun Grønvik:
Nynorskkorpuset ved Norsk Ordbok
Nynorskkorpuset er oppbygd frå 2002 og utetter som del av prosjektet Norsk Ordbok 2014.
Nynorskkorpuset er laga som supplement til dei andre nynorske ordsamlingane som Norsk Ordbok byggjer på. Korpuset er eit sjølvstendig element, som ein ikkje får tilgjenge til via Metaordboka. Det inneheld per november 2011 om lag 87 millionar ord.
Til toppen
Nynorskkorpuset har avisspråk, skjønnlitterært språk, tekstar for born og fagspråk. Det har tekst frå 1866 til i dag. Det er mest tekst frå det siste tiåret, men også mykje tekst frå før 1925. Innsamlinga av tekstar etter 1990 har så langt mogleg fylgd fordelinga av teksttypar som er lagd til grunn for PAROLE korpusa. (PAROLE står for Permanent Action for Resource Organization for Language Engineering, eit EU-projekt som bygde opp korpus och elektroniske ordbøker for 14 respektive 12 europeiske språk. Det vart finansiert av EU-kommisjonen på 1990-talet).
Du kan sjå på kronologisk fordeling av tekst 1866-2010 etter år etter 25-årsbolkar
For leksikografar vil nynorskkorpuset særleg gje betre grunnlag for å redigera ord frå det moderne nynorske skriftmålet. Korpuset inviterer også til utnytting for andre forskingsformål enn det leksikografiske.
Opplysning om kva for tekstar korpuset rømer, finn du ved å fylgja lenkjene nedanfor:
Kjeldeliste (lenke til bibliografibasen) sortert etter innlemmingstidspunkt (slik at ein kan sjå kva for nye ord kvar tekst tilfører korpuset - meir om dette i pkt 1.1) alfabetisk (etter kjeldesignatur)
Til toppen
Dersom du klikkar på ein kjeldesignatur i kjeldelista, får du opp ei liste over ordformer (med tal førekomstar) som ikkje fanst i korpuset før teksten med denne kjeldesignaturen vart lagd inn. Med "ordform" forstår vi her oppslagsord og eventuelle bøygde former. Døme (frå Skag_HR):
671072 |
sinkbøtta |
3 |
670799 |
sinnsopprør |
10 |
670945 |
sinnsopprøret |
2 |
671655 |
sjarmetroll |
1 |
671079 |
sjaske |
1 |
670577 |
sjeleangst |
1 |
I tillegg kan det finnast teiknstrengar (token) som ikkje er ordformer i streng forstand, t.d. namneformer, (feil) samanskrivne ord, og (særleg i avisteksst) andre meir eller mindre tilfeldige teiknrekkjer som er avgrensa i teksten av to mellomrom. Desse listene kan nyttast t.d. til å sjå på utviklinga i ordtilfanget til ein forfattar, eller som ein peikepinn om innhaldet i teksten.
Døme 1:
Under sjette siste band av Garborgs samla verk (Ga. VI, utg 1922) er ordet byferd nytta 11 gonger. Sidan band I-V vart lagde inn fyrst, finst ikkje dette ordet tidlegare hos Garborg.
Døme 2:
Under Røds.K finn ein mange samansetningar på budsjett-, konsum-, inntekts-, alle ordformer som ikkje finst frå før i korpuset. Dette varslar om kva slag bok det gjeld - nemleg ei lærebok i økonomi. (Då kan ein også rekna med at t.d. saksforklaringar i denne boka har større autoritet enn saksforklaringar frå ein avisartikkel.)
Til toppen
Søkjesystemet for dette korpuset er utvikla med utgangspunkt i IMS Workbench for gjenfinning av tekst frå korpus. IMS Workbench er laga for å letta leksikografisk og terminologisk arbeid. Opphavet ligg hos TC Project ('Text Corpora and Tools for their Exploitation') ved Institut für Maschinelle Sprachverarbeitung ved universitetet i Stuttgart.
Søk blir tolka av 'Corpus Query Processor' (CQP). CQP krev at korpus blir registrerte og innkoda på ein viss måte. Nynorskkorpuset fylgjer CQP-standarden. Du finn meir om dette på
http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/
Til toppen
Føremålet med dette korpuset er å gjera det lettare å utforska ordtilfanget i nynorsk litteraturmål, i den tida det har eksistert. Dette korpuset fyller ikkje malen for eit synkront, balansert korpus, endå om prinsippa for slike korpus ligg i botn for tekstsamansetninga for dei to siste tiåra. Det er meininga å auka korpusstorleiken både med eldre og yngre tekst, alt etter kva det er rom for innanfor prosjektet. Dette inneber at mange ulike rettskrivingsvariantar for nynorsk finst i det same korpuset, noko som set større kunnskapskrav til brukarane av korpuset, om dei skal få full nytte av det. Korpusteksten som er skriven etter 1938, er ordklassetagga og lemmatisert. Teksten som er skriven før 1938 er ikkje ordklassetagga og lemmatisert. I den eldre teksten kan ein derfor berre søkja på ordform (eventuelt med kjelde). Ordklassetagginga er gjord slik at 250 000 ordformer fyrst vart tagga manuelt. Deretter er resten av ordtilfanget ordklassetagga automatisk. Dette inneber at det finst feiltaggingar i korpuset, endå om det meste er rett. Alle nye tekstar frå etter 1938 som kjem inn i korpuset, blir ordklassetagga.
Les meir om ordklassetagginga på http://folk.uio.no/danielr/nyno-brill-doc.html.
Her finn du også dokument med meir informasjon om korleis tagginga og lemmatiseringa er utført: http://folk.uio.no/danielr/
Til toppen
Det kan løna seg å tenkja på søk med alternativ om ein vil ha med både eldre og yngre tilfang i same søk. I eldre nynorsk har substantiv stor førebokstav, så her kan det òg bli naudsynt med alternative søk. Nokre viktige skilnader mellom eldre og nyare rettskriving er
Før |
No |
Gjeld |
aa |
å |
rettskriving, infinitivsmerke |
u |
o |
rettskriving (kuffert > koffert) |
i |
e |
rettskriving (gil > gjel) |
-or, -orne / -orna |
-er, -ene |
feminimum fleirtal |
-ir, irne |
-er, -ene |
femininum og sume maskulinum fleirtal |
-ade |
-a |
verb av kasta-klassa, preteritum og fortids partisipp bunden form og fleirtal |
-at |
-a |
verb av kasta-klassa, supinum og fortids partisipp nøytrum |
Til toppen
Når ein skriv søkjeargument, må ein skilja mellom store og små bokstavar. Ein kan også søkja på bokstavar med aksent, og alle dei teikn som elles er i korpuset. Ein får nøyaktig tilslag.
Til toppen
Ein søkjer i korpuset med regulære uttrykk. Språket for søkjeargument er eit eige standardisert "språk" som byggjer på engelsk. Nedanfor er det gjevi ei stutt utgreiing om dei mest aktuelle søka for leksikografar. Om sjølve søkjespråket, sjå og nedanfor under pkt 2.15, som har oversyn over typar og teikn som kan nyttast i søk på dette korpuset. Vil du vita meir om regulære uttrykk, er dette ei nyttig lenke:
http://ysomeya.hp.infoseek.co.jp/eng-quick_regex.html
Til toppen
Korpuset skil mellom attributta ordform (word) og lemma (lemma). (Eit attributt er ein kategori som avgrensar søket til ein viss type eining. Lista over moglege attributt står under pkt 2.15.) Alle desse er ordformer: hus, huset, husa, gå gjekk, gått, dårleg, dårlege, dårlegast. Berre hus, gå, dårleg er lemma. "Lemma" svarer såleis til "oppslagsord" i ordboka. Dette skiljet har interesse berre i høve til ordklasser med bøying. I dette korpuset dreiar det seg om substantiv, adjektiv og verb, og dessutan partisippformer av verb og determinativ (sjå u pkt 2.15). For alle ordklassar der orda berre har ei form, oppnår ein det same ved å søkja på ordform.
Til toppen
For å syna at ein søkjer på ordform, bruker ein attributtet "word".
Søkjeargumentet skal skrivast inni hakeparentes for kvart ord, og følgjast at likskapsteikn og hermeteikn, alt utan mellomrom. Ordforma som ein vil søkja på, står mellom hermeteikna. Det må ikkje vera mellomrom nokon stad. Da blir det slik:
[word="ordtilfang"]
Søkjeargumentet for ordform kan avstyttast slik:
"ordtilfang"
Gløymer ein hermeteikna, får ein ikkje tilslag.
Til toppen
Ein kan også gjera trunkerte søk. Trunkeringsteiknet er punktum fylgd av stjerne, slik:
"ordtilfang.*"
eller
[word="ordtilfang.*"]
Da får ein tilslag i alle ordformer som byrjar med "ordtilfang", irekna den nakne ordforma.
Dersom ein vil ha samansetningar med "ordtilfang" som etterledd, set ein trunkeringsteiknet fyrst:
".*ordtilfang"
Ein kan også trunkera i båe endar av ei ordform, eller inni ordforma.
Til toppen
Ofte kan ein spara tid på søkja etter fleire ordformer i rekkjefylgje. Døme:
"kjem" "til" "å" "bli"
"i" "og" "for" "seg"
"til" "og" "med"
Ein kan også skriva slike søkjeargument fullt ut, med hakeparentes for kvart ord:
[word="til"] [word="og"] [word="med"]
Rekkjefylgja på søkjeargument gjev rekkjefylgje i søkjeresultat. Det må vera eitt mellomrom mellom kvar eining, anten ein bruker hermeteikn eller hakeparentes.
Til toppen
Ein kan avgrensa søk på ei eining ved å kombinera søkjekriterium. Da må ein føre søkjeargumenta innanfor hakeparentes. For "og" skriv ein "&".
Formelen blir då slik:
[ATTRIBUTT 1="xxx" & ATTRIBUTT 2="yyy"]
I neste avsnitt er det vist døme på kombinert søk på ordform frå ei viss kjelde. Ein kan kombinera søkjekriterium med alle attributt som er brukte i korpuset. Sjå òg døme under 2.11.
Til toppen
I Nynorskkorpuset kan ein avgrensa søk etter belegg til ei viss tekst eller ei viss gruppe tekstar. Ein søkjer då på ordform eller lemma kombinert med kjeldesignaturen verket har i Norsk Ordbok. Attributtet for kjelde er "ref". Søk på kjeldesignatur kan trunkerast på same måten som søk på ordform ("word"). Søk på kjeldesignatur er definert som å søkja på ein eigenskap ved eit ord. Søkjer ein berre på kjeldesignatur, får ein feilmelding. Merk at ein bør ta med trunkeringsteiknet sist i alle kjeldesignaturar, for å få med sidetalet.
Døme:
[word="koffert.*" & ref="SS.1990.*"] [word="auk.*" & ref="SS.*"]
Merk at for mellomrom i kjelder, som t.d. i
"DT 2002"
må ein skriva punktum
"DT.2002"
Til toppen
Søk på ordform (attributtet "word") gjev tilslag i heile korpuset, dvs. både tekstar før og etter 1938. Det same gjeld søk på ordform pluss kjelde.
[word="xxx"]
[word="xxx" & ref="yyy.*"]
Til toppen
Søk på ordklassetagg (attributtet "msd") eller oppslagsform (attributtet "lemma") gjev tilslag berre i tekstar frå 1938 eller seinare. Tilslag ein får i tidlegare tekstar, er ikkje pålitelege.
[lemma="xxx"]
[msd="ordklassetagg"]
Sjå meir om ordklassetaggane under pkt 2.14.
Til toppen
Dersom ein vil søkja på alternative former, t.d. ha med ulike rettskrivingsvariantar, kan ein føra spesifiserte alternativ i søkjeargumentet. Søkjealternativ står innanfor parentes og er skilde med rett, vertikal strek. Det ser då slik ut:
"xxx(ALT1|ALT2)xxx"
Døme:
Vil ein ha med alle former av "følgja/fylgja" kan ein skriva det slik:
[word="f(ø|y)lg.*"]
Ein kan føra meir enn to alternativ.
[word="(m|d|s)eg"]
vil gje tilslag for meg, deg, seg.
Til toppen
Ein kan som nemnt kombinera søkjeargument med teiknet "&". Då får ein tilslag som innfrir båe vilkår.
Vanlege søk på trunkert lemma + ordklasse er:
[lemma="xxx" & msd="SAM.*"] (substantiv i maskulinum) [lemma="xxx" & msd="SAF.*"] (substantiv i femininum) [lemma="xxx" & msd="SAN.*"] (substantiv i nøytrum) [lemma="xxx" & msd="V.*"] (verb) [lemma="xxx" & msd="A.*"] (adjektiv) [lemma="xxx" & msd="P.*"] (partisipp)
Eit par vanlege fleirordige søk er
søk på "verb + partikkel", som vil gje belegg med t.d. halda på, held fram, heldt til:
[lemma="xxx(e|a)" & msd="V.*"] [msd="PREP"]
søk på nominalfraser som t.d. "ein liten hund / to små hundar / den vesle hunden"
[msd="D.*"] [msd="A.*"] [lemma="xxx" & msd="S.*"]
Under pkt 2.14 finn du opplysning om taggesystemet for ordklassar.
Til toppen
Dersom ein vil søkja etter ord som står på litt avstand frå kvarandre, set ein inn eit sett tomme hakeparentesar, fylgde av eit sett sløyfeparentesar (utan mellomrom mellom). Inni sløyfeparentesane skriv ein inn det talet med ord som ein vil ha imellom, t.d. slik
[]{2}
Då søkjer ein etter tilslag som har to uspesifiserte ord mellom dei som er spesifiserte. Vil ein ha frå så til så mange ord imellom, skriv ein inn båe verdiar, skilde med komma:
[]{0,5} = 'skild med frå null til fem ord'
"0,5" tyder "frå null til fem ord imellom". Tala kan ein sjølvsagt endra etter behov.
Døme: [lemma="halde" & msd="V.*"] []{0,5} [word="seg"]
Da får ein tilslag som "halda seg, held seg, halda fram med å kalla seg, heldt på å ta livet av seg".
Til toppen
Ein kan ha bruk for å søkja etter teikn som ikkje er vanlege bokstavar, som til dømes punktum (".") eller komma (","). Det kan t d vera at ein berre er interessert i apposisjonar.
Da er det to ting ein må ta omsyn til: 1. Alle teikn i teksten som ikkje er bokstavar, er skilde ut som eigne "ord" (tokens). Dei har mellomrom både før seg og etter seg. Når ein søkjer etter eit teikn, søkjer ein derfor etter atributtet word. 2. Mange av teikna er del av søkjespråket CQP. For å markera at søket gjeld sjølve teiknet, set ein omvend skråstrek (backslash) rett framfor. Dersom ein vil søkja på teikn, skriv ein altså: [word="\TEIKN"] eller "\TEIKN" Ei åtvaring: søk etter berre teikn vil truleg ikkje gje treff lenger ut i korpuset enn til Firda eller Dag og Tid, så søk etter vanlege teikn bør kombinerast med søk på vanlege ord. Døme: Vil ein ha preposisjonen "i" framfor punktum, ser søkjestrengen sllik ut [word="med"] [word="\."] eller "med" "\." Til toppen
Fire ordklassar er merkte med ein bokstav:
S |
substantiv |
A |
adjektiv |
P |
partisipp |
D |
determinativ (artiklar, eigedomspronomen, og pronomen som all, kvar, ingen, nokon) |
Desse ordklassane har eit eigenskapsskjema til seg, sjå nedanfor. Dei andre ordklassane har meir eksplisitte (intuitive) taggar:
ADV |
adverb |
INF-M |
infinitivsmerke |
INTERJ |
interjeksjon |
KONJ |
konjunksjon |
PREP |
preposisjon |
PRON- |
(pluss særdrag) pronomen |
SBU |
(subordinasjon - underordning) |
TALL |
(romartal) |
V- |
(pluss formdrag) |
X |
ikkje-nynorsk ord |
Verb med med tilleggstagg for verbform er:
V |
verb |
V-INF |
verbform i infinitiv |
V-PRES |
verbform i presens |
V-PRET |
verbform i preteritum |
V-INF-PRES-ST-FORM |
verbform på -st i infinitiv eller presens |
Taggeskjema for substantiv:
1 ordklasse |
2 type |
3 kjønn |
4 tal |
5 kasus |
6 binding |
S = substantiv |
A = appellativ P = proprium
|
F = femininum M = maskulinum N = nøytrum |
E = eintal F = fleirtal
|
G = genitiv 0 = alt anna
|
U = ubunden B = bunden
|
Taggeskjema for adjektiv:
1 ordklasse |
2 type |
3 grad |
4 kjønn |
5 tal |
6 kasus |
7 binding |
A = adjektiv |
Q = kvalitativ |
P = positiv K = komparativ S = superlativ |
M = maskulin N = nøytrum |
E = eintal F = fleirtal |
G = genitiv 0 = alt anna |
U = ubunden B = bunden |
Taggeskjema for partisipp:
1 ordklasse |
2 type |
3 grad |
4 kjønn |
5 tal |
6 kasus |
7 binding* |
P = partisipp |
F = perfektum P = presens |
0 |
2 = feminin og maskulin N = nøytrum 0 = syner ikkje genus |
E = eintal F = fleirtal |
0 |
U = ubunden B = bunden |
*partisipp som står predikativt er alltid tagga med 0 for binding
Taggeskjema for determinativ:
1 ordklasse |
2 type |
3 kjønn |
4 tal |
5 kasus |
6 binding |
D = determinativ |
D = demonstrativ K = talord P = eigedomspronomen
|
M = maskulinum F = femininum N = nøytrum
|
E = eintal F = fleirtal |
G = genitiv 0
|
0 = ubunden / uviss B = bunden |
Til toppen
Attributt |
Tyding |
lemma |
oppslagsord med bøyingsformer |
msd |
morpho-syntactic description (= morfosyntaktisk beskriving) |
ref |
kjeldesignatur i Nynorskkorpuset |
word |
ordform |
Teikn |
Bruk |
"" |
rundt alle søkjeargument |
& |
tilleggskriterium innanfor søkjeargument |
() |
bogeparentes grupperer alternativ |
* |
0 eller fleire bokstavar av same slag som den siste (Kleene si stjerne) |
, |
mellom to tal, tyder 'frå - til' (0,5 tyder 'frå og med null til og med fem') |
. |
eit eller anna teikn |
[] |
hakeparentes rundt alle samansette søkjeargument |
{} |
sløyfeparentes rundt tilleggsvilkår for føregåande søkjeargument |
| |
skil alternativ (dvs tyder 'eller') |
= |
utan mellomrom før og etter, fylgjer lemma, word, msd |
Til toppen
|