Redaktørar: Jan Terje Faarlund og Dag Gundersen.
Redaksjonssekretær: Svein Nestor.
Signerte artiklar står for forfattaren sitt syn.
ISSN 0806-2870 (elektronisk utgåve).
ISSN 0333-3825 (prenta utgåve).
I årets siste nummer kan det passe å nevne noe av det faglige arbeidet Norsk språkråd har brukt 1998 til. Mye er selvsagt løpende gjøremål, f.eks. den språklige granskingen av hundrevis av lærebøker, og svar på en jevn strøm av enkeltspørsmål (Hva gjør en predator, dvs. et rovdyr: predaterer eller prederer?).
Språkrådet skal engasjere seg mer enn før i uttalespørsmål og utreder hvilke former dette engasjementet skal ta. Et grammatikkutvalg er i sving for å vurdere om og hvordan synspunkter og terminologi fra Norsk referansegrammatikk (1997) skal få konsekvenser for skoleverket. Det arbeides med Norsk språkråds framtidige organisasjon og hvilke framtidige arbeidsoppgaver vi kan vente oss. Bokmålsseksjonen har brukt mye tid på å gjennomgå valgfrie former og vurdere om noen av de minst brukte kan tas ut av rettskrivningen. Nynorskseksjonen er midt inne i arbeidet med ordforrådet i moderne nynorsk bruksmål. I samarbeid med Nasjonalt læremiddelsenter gjennomgår Språkrådet terminologien i ikke-kristne religioner som er en del av livsynsfaget i skoleverket. Her skal en mengde ord fra fjerne strøk nå bli norsk lærebokspråk uten å støte an mot vår språkstruktur og våre hovedmønstre i rettskrivning og bøyning. En håndbok i lærebokgransking blir ferdig i år. En termliste for fysikk og kjemi blir også ferdig, og en tilsvarende for historie er kommet langt.
Endelig må vi nevne det som dette nummeret handler mest om: IT, informasjonsteknologi, også kalt IKT, informasjons- og kommunikasjonsteknologi. Språkrådet har nedsatt en IT-komité og var med på å arrangere en IT-konferanse i høst. I(K)T angår oss alle, og den språklige siden ved det er et helt sentralt arbeidsfelt for oss, nå og videre framover.
Dag Gundersen
SPRÅKTEKNOLOGI SOM KULTURFORSVAR
KÅRE LILLEHOLT
Sekretariatet i Språkrådet skal styrkjast for "å kunne møte dei utfordringane som informasjonsteknologien representerer for norsk språk". Det fekk regjeringa tilslutnad til i Stortinget da Stortingsmelding nr. 13 (1997–98) vart drøfta våren 1998. I meldinga viste regjeringa til ein handlingsplan frå Kulturdepartementet for IT på kulturområdet 1998–2001, og der er det framlegg om eit sekretariat for språkteknikk som skal leggjast til Språkrådet.
Statsbudsjettet for 1999 vart eit sparebudsjett, og det var ikkje rom for noko sekretariat for språkteknikk. Men det er all grunn til å tru at løyvinga kjem seinare. I mellomtida førebur Språkrådet det vidare arbeidet med desse spørsmåla, mellom anna ved å greie ut kva kompetanse som trengst i eit nytt sekretariat. "Språkteknologi og dei nordiske språka" var hovudtema på det nordiske språkmøtet i september 1998. Språkmøtet er ein møtestad for språknemndene i Norden. Som ventande var, kom det fram at oppgåvene på dette området er mykje dei same for alle dei nordiske landa, og det bør liggje til rette for eit nordisk samarbeid.
Måla
Spør ein kva mål Norsk språkråd bør ha for arbeidet med språkteknologi, finn ein eit svar alt i lova om Norsk språkråd: Språkrådet skal "verne om den kulturarv som norsk skriftspråk og talespråk representerer". Det er det overordna målet for verksemda i rådet.
Samfunnsutviklinga, medrekna utviklinga av teknologien, påverkar språket. Slik må det vere, og det er ikkje noko vi skal verne språket mot. Men det finst påverknader som er mindre ønskjelege enn andre, og da skal Norsk språkråd prøve å kome med mottiltak, nettopp for å verne kulturarven. Språkteknologien –utviklinga av elektroniske verkty for automatisk språkbehandling – ser ut til å ha sider som kan tenkjast å endre situasjonen for norsk språk på ein uheldig måte, men også sider som kan vise seg å styrkje norsk språk. Derfor er det rett og rimeleg at språkteknologien blir eit arbeidsområde for Språkrådet.
Det viktigaste målet Norsk språkråd bør ha for arbeidet med språkteknologien, kan formulerast slik: Norsk skal haldast oppe som fullgodt bruksspråk på alle livsområde. Dette kan presiserast meir:
– Det skal vere mogleg å bruke norsk i alle samanhengar der mottakarane forstår norsk.
– Dei som har norsk som sitt næraste språk, skal kunne møte norsk i flest moglege samanhengar, i yrkesliv og i fritid.
– Språket vi bruker og møter, skal helst vere god og rett norsk.
– Norsk skal haldast oppe som eit rikt og nyansert språk som er ein tenleg reiskap for flest mogleg av brukarane.
– Det skal finnast norsk fagterminologi på flest mogleg fagområde.
– Bokmål og nynorsk skal haldast oppe som likeverdige og jamstilte former for norsk språk.
– Normeringa av norsk språk skal leggjast til organ som har fått den oppgåva på demokratisk vis.
Det meste av dette er ukontroversielt, men ikkje alt – til dømes ikkje spørsmålet om normering. Men i høve til vårt tema har den usemja mindre vekt.
Mangfaldet i kultur som viser seg i mangfaldet i språk, er ein verdi vi skal ta vare på. Derfor skal vi vere glade for auka kontakt over språkgrensene. Vi skal vere glade for at nordmenn flest i dag møter og bruker engelsk mykje meir enn før. Auka reiseverksemd, meir internasjonalt næringsliv, møte med andre lands kultur og underhaldning gjennom bøker og blad, framfor fjernsynsskjerm og dataskjerm, formidling av kunnskap og meiningar over Internett – alt dette er ein rikdom, ikkje ein fare. Slik sett er ikkje problemet at vi er for dyktige i framande språk, heller tvert om. Når Norsk språkråd ofte åtvarar om at norsk står under press frå engelsk, kjem det ikkje av nokon motvilje mot engelsk. Poenget er berre at bruken av engelsk og andre språk skal kome i tillegg og ikkje skuve norsken ut.
Oppgåvene
Kva oppgåver byr utviklinga av språkteknologien på i høve til språk og kulturvern?
I den før nemnde stortingsmeldinga vart det sagt at "nye former for avanserte produkt for tekstbehandling som er utvikla for engelsk, kan lokke mange større verksemder og grupper av privatpersonar til å nytte engelsk også i innanlands korrespondanse". I det lengste vil eg tvile på at det kan vere fullt så gale. Alt i dag har vi mengder av dataprogram og liknande produkt som ikkje finst på norsk, og mange av dei behandlar språk. Vi går ikkje av den grunn over til å bruke engelsk. Når vi høyrer at Norsk Hydro vil ha engelsk også i intern korrespondanse, er det ikkje fordi dei har fått nytt tekstbehandlingsprogram, men fordi dei har så mykje av kundekontakten på engelsk, og fordi dei har ein organisasjon som strekkjer seg over store delar av verda. Og når forskarar skriv på engelsk, er det for å nå fram til kollegaer i andre land, ikkje for å bruke det nye grammatikkprogrammet på datamaskina. Men i visse situasjonar, der det er mange andre gode grunnar til å bruke engelsk, kan nok nye språkverkty vere det som gjer utslaget.
Her ottast eg meir for jamstillinga mellom bokmål og nynorsk. Dersom vi får nye språkverkty i bokmålsversjon, men ikkje i nynorskversjon, må vi rekne med at det kan gå ut over nynorskbruken. Det skal noko til før vi skiftar frå norsk til engelsk, men så godt som alle nordmenn kan bruke bokmål like godt som nynorsk. Da kan det nye hjelpemiddelet vere det som skal til for at bokmålet tek over.
Meir enn faren for at språkteknologi på engelsk skal skuve norsken til side, er eg oppteken av at vi kan gå glipp av gode hjelpemiddel som kan styrkje stillinga for språk med få brukarar. Alt i dag kan vi sjå at det er mykje rimelegare enn før å spreie tilfang, til dømes gjennom Internett, cd-ar og diskettar. Saman med billege skrivarar og kopimaskiner sikrar desse media at mottakarane kan få fullverdige eksemplar til ein rimeleg penge når først teksten finst tilgjengeleg i elektronisk form. Noko liknande er det med opptak av lyd. Framleis kostar det mykje å lage omsetjingar. Men vi veit at det kan endre seg. Alt i dag finst det rimelege program for omsetjing til og frå engelsk for mange språk – rett nok er kvaliteten ring, men vi må rekne med at dei blir betre. Dersom ein får gode program for omsetjing til og frå norsk, kan det innebere ein heilt ny situasjon for tilgangen på norske tekstar på mange område. Slike omsetjingar kan gjere det lettare å halde fram med norsk i næringslivet og i forsking, kultur og underhaldning. Kanskje kan slike program gjere det lettare å få utvikla norsk fagterminologi òg, dels som eit ledd i arbeidet med å lage programma, dels som ei følgje av at omsetjing blir enklare og rimelegare meir allment. Fagterminologien kan utviklast også gjennom ordrettingsprogram, gjennom synonymordlister og med elektroniske ordbøker som er lettare å bruke enn dei tradisjonelle ordbøkene.
Spesielt for norske tilhøve veit vi at nye språkverkty kan tene jamstillinga mellom bokmål og nynorsk. Det har vore offisiell politikk i meir enn hundre år at bokmål og nynorsk skal vere likeverdige og jamstilte riksspråk, men det står mykje att før nynorsken blir brukt så mykje i det offentlege som Stortinget har fastsett. Eit stykke på veg kjem dette av uvilje, men det er òg ei hindring at mange ikkje har nok kunnskapar i nynorsk. Gode omsetjingsprogram og ordrettingsprogram og tilgang på elektroniske skjema og formular kan kome godt med her. Program for omsetjing frå bokmål til nynorsk finst, og så vidt eg skjønar, kan dei alt i dag vere til glede og nytte.
Det er med andre ord all mogleg grunn til å arbeide for å utvikle språkteknologi på norsk av omsyn til kulturforsvaret. Men skal språkteknologien bli til hjelp for norsk språk, må vi arbeide for å nå dei måla eg før nemnde, om at språket skal vere godt og rett, og at det skal vareta nyanserikdom, fagterminologi, jamstilling og demokratisk normering.
Verkemidla
Det planlagde sekretariatet for språkteknikk skal vere eit bindeledd mellom IT-næringa og kultur- og forskingsmiljøa. Ei rolledeling må det vere i dette. I dag blir det neppe rekna som ei oppgåve for det offentlege å utvikle og selje nye språkteknologiske produkt; det er ei oppgåve for næringslivet. Heller ikkje kan vi seie at språkteknologien krev heilt nye modellar for samvirket mellom forsking og næringsliv. Vi skal framleis ha forskingsmiljø som varetek grunnforskinga, og vi skal ha forskingsmiljø der det blir utvikla kunnskap som kan nyttast kommersielt, anten det skjer gjennom oppdragsforsking eller på anna vis.
Det er delar av forskinga på dette området som det offentlege må kjenne særleg ansvar for, gjennom forskingsprogram eller på anna vis. Det er den forskinga kring språkteknologi som kanskje kan kallast språkspesifikk: korleis vi skal ta omsyn til særdrag og tradisjonar i norsk språk når språket skal brukast i teknologien. Eit døme kan vere handteringa av valfridommen i norsk rettskriving. Vi må rekne med at det er grenser for kor mykje pietet næringslivet vil vise her – eller rettare sagt, vi veit at grensa går ved det som betaler seg. Noko liknande gjeld utviklinga av norsk fagterminologi. Utan å vere fagmann vågar eg meg til å tru at det offentlege bør sjå til at forskinga kring språkteknologi får med både allmennlingvistar, nordistar, terminologar og språkinteresserte fagfolk frå mange område.
Fagfolk seier, og det verkar overtydande, at språkteknologien treng offentlege fellesressursar. Også i ein sterkt marknadsorientert økonomi er det nokre oppgåver som bør reknast som offentlege, til dømes å byggje vegar. Noko liknande finn vi her: For viktige delar av språkteknologien trengst det store språkbasar som godt kan vere til felles bruk. For det første kan det vere så dyrt å få bygt opp desse basane at det ikkje løner seg for noko einskilt føretak å gjere det for ein marknad som er så liten som den norske. For det andre kan vi fort få ein monopolsituasjon dersom nokon først får etablert ein base. Og for det tredje, om det skulle lykkast å byggje opp fleire basar, kan det vere vanskeleg med den språklege kvalitetssikringa av alle.
Det blir sagt at den delen av produktutviklinga som er spesifikk for kvart språk, er så omfattande at spørsmålet om norsk tilpassing av produkta byr på heilt andre vanskar enn vi har støytt på til no, når det gjeld norske versjonar av dataprogram. For det offentlege kan det derfor vere ei oppgåve å kompensere for den skilnaden mellom marknadene som talet på språkbrukarar skaper. Det kan ein gjere ved å finansiere og tilby til fri bruk "grunnressursar" som forskingsmiljøa og næringsmiljøa så kan utvikle vidare. Dette er tiltak som bør greiast ut og vurderast snarast råd.
Ein variant av slike felles språkressursar er ordbokbasar og basar over rettskrivingsvedtak. Norsk språkråd har alt gått inn i eit samarbeid om å halde à jour ein base over rettskrivingsdelen av ein ordbokbase. Språkrådet har òg rettar til ordbøker og ordlister, ofte saman med andre. Her bør det vurderast om desse ordbøkene og ordlistene kan frigjevast, dels for å sikre at det i det heile blir laga språkverkty som krev slike basar, dels for å sikre kvaliteten på slike verkty. I dag er dessverre kvaliteten nokså blanda.
Norsk språkråd har lang røynsle med kontroll og godkjenning av tekstar. Først og fremst gjeld det lærebøker der det er lovfesta krav om godkjenning, men i nokre tilfelle er Norsk språkråd "konsulent" for andre bøker òg. Kanskje bør alle språkverkty som skal brukast i skulen, vere språkleg godkjende av Språkrådet. I alle høve kan ein tenkje seg friviljuge ordningar med kontroll og "sertifisering" av språkverkty både innafor og utafor skuleverket. For språkverkty som skal brukast i skulen, bør jamstilling mellom bokmål og nynorsk vere eit sjølvsagt krav. Ein kan også tenkje seg at det blir laga kravspesifikasjonar for språkverkty som skal kjøpast inn til det offentlege. Jamstilling mellom bokmål og nynorsk og samsvar med offisiell rettskriving bør i så fall vere ufråvikelege krav.
Mellom verkemidla som er nemnde, er det både pisk og gulrot, slik det gjerne er på ein offentleg meny. Når det gjeld skuleverket og forvaltninga, må styresmaktene få ha eit ord med i laget om kva som er god og rett norsk. Vonleg kan vi også kome dit på det private området at god og rett norsk blir eit viktig salsargument for nye språkverkty.
Slik eg ser det, er ikkje språkteknologien farleg for norsk språk og kultur. Med noko innsats bør vi tvert om kunne få språkteknologien til å bli den beste hjelpa bruken av norsk språk kan få. Språkteknologien er ikkje noko vi skal forsvare oss mot; det er noko vi skal forsvare oss med.
SPRÅKTEKNOLOGI I NORGE
TORBJØRN NORDGÅRD
I de siste årene har språkteknologisk forskning og utvikling vært inne i en sterk vekstfase, særlig i nasjoner som USA, Tyskland, Storbritannia og Japan. Over tid har det blitt slik at engelsk har pekt seg ut som det språket som ligger best til rette for språkteknologisk produktutvikling, som automatiske dikteringssystemer, taleproduksjon, korrekturprogrammer, maskinoversettelse, informasjonssøking osv. Det kommer av at det for engelsk finnes store mengder tekstkorpora, talekorpora, grammatikker og ordlister, mens andre språk ikke har tilsvarende språklige ressurser tilgjengelige for forskning og utviklingsarbeid. Dette fører i sin tur til at språkteknologiske anvendelser for engelsk stadig blir utviklet og forbedret, mens mindre språk, som norsk, må klare seg uten slike produkter. Selv om situasjonen i Norge kan virke dyster på denne bakgrunnen, foregår det en viss aktivitet, som vi skal se i denne kortfattede oversikten.
Universitetene
Man kan si at norsk datalingvistikk startet opp i sekstiårene da forskere ved Universitetet i Bergen begynte å arbeide med språk og datamaskiner. Aktiviteten var imidlertid begrenset til noen få ildsjeler, men rundt 1970 ble NAVFs edb-senter for humanistisk forskning etablert der. Ved dette senteret har man siden syttiårene arbeidet med bl.a. korpusorientert lingvistikk, dvs. studier av elektroniske tekster. Denne aktiviteten ved senteret er i dag internasjonalt vel anerkjent, og materiale fra denne tiden brukes fremdeles av språkforskere, dels til empiriske studier av språk og dels som hjelp i utvikling av språkteknologiske anvendelser. Dette illustrerer at språkressurser i form av maskinleselige tekster har langvarig gjenbruksverdi.
Universitetene i Oslo, Bergen og Trondheim fikk faste stillinger i datalingvistikk i åtti- og nittiårene, noe som har ført til at disse universitetene nå tilbyr undervisning i datalingvistikk. Universitetet i Trondheim har siden midten av åttiårene hatt stillinger som helt eller delvis har vært knyttet til taleteknologi. De språkteknologiske fagmiljøene er imidlertid små. Det er totalt åtte stillinger som har datalingvistikk eller språkteknologi nevnt i stillingsinstruksen: tre stillinger i Oslo, to i Bergen og tre i Trondheim. Sammenlignet med andre land er dette beskjedne fagmiljøer målt ut fra størrelsen. Både Sverige og Danmark har atskillig større datalingvistiske forsknings- og undervisningssentre.
Den datalingvistiske forskningsaktiviteten ved Universitetet i Oslo kan sies å være profilert langs to akser. På den ene siden finner vi forskning omkring formelle egenskaper ved naturlige språk, dvs. studier av formelle språk og grammatikker, formell syntaks og semantikk. I forlengelsen av denne forskningsaktiviteten arbeider man med bl.a. automatisk oversettelse. Den andre hovedaktiviteten er datalingvistiske studier av løpende tekst, herunder utvikling av automatisk ordklasseidentifikasjon (part-of-speech tagging) for norsk (bokmål og nynorsk). Det er etablert et tekstlaboratorium der studenter og ansatte kan arbeide med maskinleselige tekster for ulike språk. Universitetet i Oslo har også i flere år gjennom Dokumentasjonsprosjektet arbeidet med å gjøre sitt leksikografiske materiale tilgjengelig i maskinleselig form.
Ved Universitetet i Bergen foregår det datalingvistisk forskning ved Senter for humanistisk informasjonsteknologi (HIT-senteret) og Institutt for lingvistikk og litteraturvitenskap. Grunnforskningsaktivitetene er relatert til studier av tekstkorpora, også tospråklige tekstkorpora, der man bl.a. søker å identifisere semantiske relasjoner mellom ulike språk. Et eksperimentelt maskinoversettelsessystem er utviklet i prosjektet Partiell oversettelse mellom nærstående språk (PONS). På den anvendte siden finner vi terminologiarbeid (maskinleselige terminologiske ordlister), tilrettelegging av tekstkorpora og utvikling av avanserte korrekturlesingsprogrammer. Terminologiaktiviteten har over flere år foregått ved Norsk Termbank (nå del av HIT-senteret). Korpusarbeidet er beskrevet ovenfor og skjer nå i regi av HIT-senteret. I det EU-finansierte prosjektet SCARRIE blir et korrekturlesingsprogram for norsk, dansk og svensk implementert, med basis i et lignende system for nederlandsk. Systemet har bl.a. kunnskap om læreboknormalen, "radikale" og "moderate" bokmålsvarianter, og brukeren av systemet kan for eksempel be om at moderate og radikale former ikke kombineres. Også Norges handelshøyskole i Bergen har en viss forskningsaktivitet omkring maskinoversettelse.
Det er bare ved Norges teknisk-naturvitenskapelige universitet i Trondheim (NTNU) at taleteknologi (automatisk talegjenkjenning og produksjon av kunstig tale) eksisterer som forsknings- og undervisningsfag. Undervisningen skjer i tilknytning til sivilingeniør- og dr.ing.-studiene i teleteknikk, og forskningen forgår i samarbeid med SINTEF og universitetets fonetikkmiljø. I de siste årene har forskning relatert til telefoniske anvendelser blitt prioritert gjennom prosjektene Talebaserte grensesnitt og resonnerende systemer (TABOR) og Spoken Dialogue Systems via Telephone Lines (SPODIS). TABOR-prosjektet er finansiert av NTNU og har knyttet fagmiljøene teleteknikk, informatikk, fonetikk og lingvistikk sammen rundt utvikling av et pilotprosjekt for automatisk ruteopplysning, der blant annet taleteknologi og kunstig intelligens er sentrale komponenter. Dette prosjektet er utgangspunktet for SPODIS-prosjektet, som har til formål å utvikle en nasjonal kompetanse i feltene taleteknologi og dialogsystemer for norsk språk, og som er finansiert av Norges forskningsråd. For tiden er seks doktorgradsstipendiater direkte eller indirekte knyttet til dette prosjektet.
Med støtte fra Forskningsrådet og Telenor har man ved NTNU i regi av prosjektet Norsk komputasjonelt leksikon (NorKompLeks) prioritert utvikling av datalingvistiske ordlister med detaljerte beskrivelser av bøyninger og lydlig realisasjon. I tillegg er syntaktiske og semantiske egenskaper ved verb beskrevet i atskillig detalj. Prosjektet har tatt utgangspunkt i ordforrådet i Bokmålsordboka og Nynorskordboka, som Universitetet i Oslo forvalter. NorKompLeks-prosjektet blir avsluttet i begynnelsen av 1999, og maskinleselige ordlister vil dermed være tilgjengelige for forskning og utviklingsarbeid.
Instituttsektoren
SINTEF i Trondheim har arbeidet med komprimering av talesignaler siden midten av syttiårene, og fra midten av åttiårene har talegjenkjenning og talesyntese vært definerte forskningsområder. Oppdragsgiver har for det meste vært Televerket/Telenor. SINTEF er i dag med i SPODIS-prosjektet (jf. ovenfor), men har også over tid arbeidet med utvikling av automatisk teksting av direktesendte tv-programmer, på oppdrag fra NRK. SINTEF har i dag flere erfarne forskere innen taleteknologi.
Telenor startet sin taleteknologiske forskningsvirksomhet i 1980, og har i mange år samarbeidet med SINTEF og NTNU om taleteknologiske prosjekter relatert til telefoniske anvendelser. For tiden har Telenor Forskning også et større prosjekt for utvikling av automatiske teletjenester med norsk tale som brukergrensesnitt. Telenor finansierer det meste av fonologibeskrivelsene i prosjektet NorKompLeks (se ovenfor).
Undervisning
Ved Universitetet i Oslo tilbys faget språk, logikk og informasjon. Her kan studentene spesialisere seg i datalingvistikk, fra grunnfag til og med hovedfag. Landets mest omfattende fagtilbud i "tradisjonell" datalingvistikk (uten fordypning i taleteknologi) finner vi ved Universitetet i Bergen, der faget tilbys fra grunnfag til og med hovedfag. Faget overlapper delvis med allmenn lingvistikk. Ved NTNU tilbys enkelte datalingvistikkemner i lingvistikkfaget. I tillegg er taleteknologi en spesialisering i sivilingeniørstudiet i teleteknikk, og enkelte dr.ing.-stipendiater har tatt og tar spesialisering i taleteknologi (talegjenkjenning og talesyntese).
Et gjennomgående problem for alle datalingvistikkstudiene er svak studentrekruttering, selv om situasjonen synes å ha bedret seg noe i det siste året. Studenter som sogner til de humanistiske fakultetene, betrakter oftest datalingvistikk som et "hardt" og utypisk humanistisk fag. Samtidig er denne studentgruppen oftest ikke særlig interessert i matematisk modellering og formelle metoder, og dette forklarer nok mye av den manglende studentinteressen. På den annen side fortoner datalingvistikk seg som "mykt" og "sært" for teknologi- og realfagsstudenter. Dermed faller faget mellom to stoler, og rekrutteringpotensialet blir svakt. Det er uheldig ikke bare for instituttene som driver disse fagene, men også for næringsliv og forvaltning, der vi kan observere at etterspørselen etter kandidater med datalingvistisk kompetanse er økende. Det er en trend som er enda tydeligere internasjonalt.
Selv om studentrekrutteringen ikke er tilfredsstillende, kan man observere at viderekomne studenter lettere fatter interesse for faget fordi det har en flerfaglig innretning som studenter på høyere nivå finner spennende. Faget kombinerer informatikkemner som programmering, formelle grammatikker og automatteori og språkvitenskapelige disipliner som grammatikk, semantikk, morfologi osv. Studentene finner det spennende å arbeide med prosjektarbeid der for eksempel maskinoversettelse inngår. Da får de bruk for alt de har lært, og de utvikler et "produkt" med egenskaper som enkelt lar seg vurdere.
Oppsummering
Når man gjør opp status rundt årsskiftet 1998/1999, kan man konstatere at det tilbys undervisning i språkteknologiske emner ved de største universitetene. Maskinleselige ordlister er i ferd med å bli gjort tilgjengelige, og det eksisterer også et ferdig utviklet program for automatisk ordklasseidentifikasjon. Det mangler likevel ulike typer korpora – både tekstsamlinger og taledatabaser. Uten slike korpora kan man ikke få fart på taleteknologisk forskning omkring norsk språk, og engelsk vil dermed bli dominerende i den taleteknologien som nordmenn er i ferd med å møte, og som vil bli mer vanlig i årene som kommer. Man kan heller ikke utvikle tekstbaserte produkter for norsk språk der fagmiljøene kan foreta kvalitetssikring. Det må imidlertid bemerkes at både Språkrådet, Forskningsrådet og regjeringen har påpekt at språkteknologien må styrkes i de nærmeste årene, og man kan vel tillate seg å være nøkternt optimistisk med hensyn til mulighetene til å få finansiert et nasjonalt korpus til bruk i både i tradisjonelle språkvitenskapelige disipliner så vel som i språkteknologisk forskning og utviklingsarbeid.
BLIR NORSK GRESK FOR SPRÅKTEKNOLOGIEN?
TORBJØRN SVENDSEN
Språkteknologi er lenge blitt betraktet med store forventninger, både med hensyn på kommersielt potensial og med tanke på økt brukervennlighet for menneske–maskin-kommunikasjon. Taleteknologi, først og fremst talegjenkjenning og talesyntese, er et av de områdene det er blitt stilt spesielt høye forventninger til. Forestillingene om teknologiens muligheter er ikke blitt redusert ved at taleteknologi er blitt framstilt som tilnærmet perfekt av underholdningsindustrien, eksemplifisert ved datamaskinen HAL i Stanley Kubricks film "2001 – en romodyssé", som ikke bare forsto tale og selv kunne snakke, men som også var en kløpper i munnavlesning!
Det kan kanskje være på sin plass med en nøktern vurdering av hvor god teknologien er pr. i dag. En internasjonalt ledende forsker innen taleteknologi sammenlignet for knapt ett år siden dagens taleteknologi med de språklige ferdighetene til en toåring – i stand til å identifisere talte ord og å svare på dem. Ikke desto mindre er det blitt gjort store framskritt, og til tross for sin ufullkommenhet er teknologien i dag god nok til praktisk bruk, og til hjelp for mange.
Dagens teknologi er altså langt fra perfekt, men i den senere tid har relativt avanserte taleteknologiske produkter kommet på markedet til en meget overkommelig pris. Et eksempel på dette er dikteringssystemer, systemer som gjør at man kan diktere tekst direkte inn i en tekstbehandler, formatere og redigere teksten, alt ved bruk av stemmen. En rekke slike systemer har kommet på markedet i løpet av det siste halvannet året. Disse produktene har egenskaper som er sterkt forbedret i forhold til tidligere versjoner. For eksempel tillater dagens systemer at man snakker i setninger, i motsetning til forrige generasjons dikteringssystemer, som krevde at brukeren gjorde en liten pause mellom hvert ord.
Status og framtidsutsikter for taleteknologien ble omfattende og entusiastisk behandlet i tidsskriftet Business Week 23. februar ("Let's talk! Speech technology is the next big thing in computing"). Det har heller ikke dempet forventningene at giganter som Microsoft ved gjentatte anledninger har understreket betydningen av taleteknologi i framtidas brukergrensesnitt ("Speech is not just the future of Windows, it is the future of computing itself", Bill Gates).
Midt i de begeistrede teknologivyene er det på sin plass å se på framtidsutsiktene i et norsk perspektiv. Det er få språkteknologiske produkter som eksisterer i norsk versjon. Dikteringssystemene som er nevnt over, finnes bare i versjoner for de store verdensspråkene, og kommer først på engelsk. Aftenposten kunne i høst melde at Philips ville komme med en norsk versjon av sitt dikteringssystem til neste sommer. En henvendelse til utviklingsavdelingen hos Philips avslørte imidlertid at dette ikke medfører riktighet. Årsaken til at norske versjoner ikke eksisterer, er to forhold som er nær knyttet til hverandre: Det norske markedet er lite, og det eksisterer ikke tilstrekkelige mengder med språkdata for å tilpasse produktene til norsk språk.
Språkteknologi på norsk?
Språkteknologien er per definisjon språkavhengig. Dette innebærer at forskning, utvikling, og til og med tilpasning av eksisterende produkter, må være knyttet opp mot det språket som skal benyttes. Selv om det for eksempel eksisterer produkter for automatisk talegjenkjenning på det internasjonale markedet, vil det innebære en betydelig investering å tilpasse disse produktene (som stort sett er utviklet for engelsk språk) til norsk språk. Dersom det skal utvikles språkteknologiske produkter for norsk, må dette gjøres av personer og miljøer med norskspråklig bakgrunn og kompetanse. I praksis vil det si at det må gjøres i Norge. Behovet for norsk språkteknologi er spesielt grunnet i språkpolitikk og i hensynet til grupper med spesielle behov.
Språkpolitikk: Språket er en viktig del av den nasjonale identitet. Vår bruk av språket vil farges av de hjelpemidler vi har til å generere tekster og til å utføre daglige arbeidsoppgaver. Samfunnet er i stadig større grad preget av datatekniske hjelpemidler. Innen en periode på fem til ti år vil tale komme til å utgjøre en viktig del av grensesnittet mellom menneske og maskin, og avanserte hjelpemidler til tekstgenerering og automatisk oversettelse vil trolig være alminnelig tilgjengelige. Dersom det ikke eksisterer norskspråklige alternativer, vil man i Norge være avhengig av å bruke et fremmedspråk for å benytte denne teknologien.
Grupper med spesielle behov: Språkteknologien (og spesielt taleteknologien) kan sette en rekke funksjonshemmede i stand til å utføre oppgaver som i dag er vanskelige eller umulige. For eksempel kan lesemaskiner med syntetisk tale og dikteringssystemer med talegjenkjenning lette tilværelsen for blinde og dyslektikere, taleproteser med syntetisk tale kan sette personer med talevansker (for eksempel pga. muskellammelser) i stand til å kommunisere, og talegjenkjenning for omgivelseskontroll kan lette hverdagen for bevegelseshemmede. Vi må ikke avskjære norske funksjonshemmede fra tilgangen på hjelpemidler basert på tilgjengelig språkteknologi fordi det ikke er økonomisk regningssvarende å lage norske versjoner av eksisterende produkter.
De språkpolitiske forhold er bl a omtalt i regjeringens IT-plan Norge – en utkant i forkant, der språkteknologiens betydning for det norske språkets overlevelsesevne blir påpekt. Språkteknologiens betydning for funksjonshemmede er sterkt vektlagt i SINTEFs utredning Telematikk for funksjonshemmede, som er laget for Sosial- og helsedepartementet og Nærings- og handelsdepartementet.
Språkteknologiske korpora
Den språkteknologiske utviklingen har i dag kommet så langt at den kunnskapsmessige og teknologiske basis for å utvikle norske språkteknologiske produkter er til stede. Imidlertid er eksistensen av store mengder språkdata en forutsetning for at denne utviklingen kan finne sted. De fleste områder innen språkteknologien (i særdeleshet gjelder dette taleteknologi) baserer seg på at systemene "læres opp" gjennom bruk av store mengder språkdata, dvs. tale og tekst. Språkdataene må tilfredsstille krav til kvalitet og representativitet samtidig som de må bearbeides (annotering, korrektur, organisering etc) før de kan anvendes. Det er med andre ord ikke tilstrekkelig å gjøre enkel datafangst, f.eks. gjennom radioopptak av tale og/eller innsamling av stortingsreferater for tekst. Selve datainnsamlingen vil for øvrig utgjøre en relativt liten del av kostnadene i forhold til definering, bearbeiding og etterarbeid. I tillegg til de store databasene med tekst og tale er det nødvendig å ha leksikalske ressurser som ordlister, uttaleleksika, terminologilister etc.
Norge er et lite land, og markedet for norsk språkteknologi er derfor også begrenset. Dersom innsamling av språkteknologiske korpora skal gjøres fra grunnen av for hvert produkt, vil til og med kostnadene for tilpasning av eksisterende språkteknologiske produkter til norsk være for høy til at det vil være økonomisk interessant uten vesentlig offentlig støtte. Utvikling av egne norske produkter vil naturlig nok være enda mindre attraktivt. Det er derfor en nasjonal oppgave å skape den språkteknologiske infrastruktur som er nødvendig for å lage norskspråklige produkter og anvendelser.
Det vil naturligvis være mulig å gi offentlig støtte til utvikling av spesielle produkter, med dertil hørende datafangst. Men dette vil ikke være god forsknings- og utviklingspolitikk fordi
- de data som samles inn, vil være produktspesifikke, og vil ha begrenset gjenbruksverdi
- produktutvikleren vil gå inn med en betydelig egenfinansiering, vil de innsamlede dataene normalt være utviklerens eiendom. Ressursen blir dermed ikke tilgjengelig for andre
- datainnsamlingen vil drives på en adhocbasis, vil det ikke være et helhetssyn på hva slags data som skal samles inn, i forhold til det som allerede måtte eksistere av norske språkdata
En slik politikk vil derfor være en lite effektiv bruk av offentlige forsknings- og utviklingsmidler.
For å oppnå en mest mulig effektiv bruk av penger og arbeidsinnsats bør det defineres og samles inn et nasjonalt korpus for norsk språkteknologi. Det nasjonale korpuset bør fylle følgende kriterier:
- De språkdata som samles inn, skal være av en generell art. Innholdet i databasen skal dekke de grunnleggende, felles behov for språkdata for forskning og utvikling av norsk språkteknologi. Korpuset skal dekke både bokmål og nynorsk, og i taledelen av korpuset skal det være en dekkende representasjon av dialektbruk.
- Data skal samles inn og organiseres etter de retningslinjer og standarder som eksisterer internasjonalt, eventuelt med noen tilpasninger for norsk språk. Det skal legges stor vekt på gjenbruk og levetid. Den innsats som legges inn i det nasjonale korpuset skal være en ressurs for norsk språkteknologi i flere tiår.
- Det nasjonale korpuset skal være tilgjengelig for alle aktører innen norsk språkteknologisk forskning og utvikling.
- Produktspesifikke databaser skal i utgangspunktet ikke inngå i innsamlingen av det nasjonale korpus. Det er imidlertid ønskelig at korpuset blir supplert med slike databaser. For eksempel kan det være en betingelse ved offentlig støtte til produktutvikling som inkluderer datainnsamling, at de innsamlede data etter en viss tid skal innlemmes i det nasjonale korpuset.
Et nasjonalt språkteknologisk korpus er en nødvendig forutsetning for at det skal være økonomisk regningssvarende å utvikle produkter for det norske markedet. Det vil da være tilstrekkelig med en begrenset innsamling av applikasjonsspesifikke data for produktutvikling. Denne språkressursen er et nasjonalt ansvar, der det vil være en forutsetning å ha offentlig fullfinansiering.
Innholdet i et nasjonalt språkkorpus
Et nasjonalt språkteknologisk korpus vil bestå av følgende hovedkomponenter:
- Annoterte taledata. Tilgang på et stort materiale av taledata fra et representativt utvalg av talere er nødvendig for taleteknologisk forskning og utvikling. I tillegg til talen er det nødvendig med en transkripsjon av det tekstlige, og i en del tilfeller også det fonetiske, innholdet av talen. Det er nødvendig å ha taledata som representerer alle stemmetyper og dialekter, i tillegg til at det må være opptak som er gjort under ulike betingelser – høykvalitets tale for diktering, menneske–0maskin-interaksjon med spontan tale, telefontale osv. EAGLES, en rådgivende ekspertgruppe for språkteknologi nedsatt av EU, anbefaler at høykvalitetsdelen av en nasjonal taledatabase bør bestå av opptak fra 200–500 talere og til sammen utgjøre minst 100 timer. Hvis en tar i betraktning at vi har to målformer i Norge, og at de fleste brukere vil forvente at taleteknologiske systemer aksepterer dialektbruk på lik linje med "normalisert" talemål, må denne anbefalingen anses som et absolutt minimum.
- Leksikalske data. Uttaleleksika som angir sammenhengen mellom ortografisk tekst og uttale, er nødvendig, både for talegjenkjenning og talesyntese. Det vil være ønskelig at den leksikalske informasjonen i tillegg gjenspeiler uttalevariasjon, også med tanke på dialektbruk. Det er dessuten behov for leksikalske data som ordlister, synonymordlister og terminologilister for datalingvistikk og maskinoversettelse.
- Tekstdata. Innen taleteknologien benyttes tekstdatabaser for å lage statistiske språkmodeller for talegjenkjenning, talesyntese og dialoghåndtering. Spesielt krever talegjenkjenningen store tekstdatabaser, i størrelsesorden flere hundre millioner ord. Også andre deler av språkteknologien krever store tekstkorpora. Tekstdatabasene bør være merket ("tagget"). Det vil være nødvendig å samle inn store mengder tekstmateriale fra ulike domener (avistekst, skjønnlitterær tekst, privatkorrespondanse og forretningskorrespondanse osv). En hovedkostnad ved innsamlingen av tekstdata vil ligge i "vaskingen" av teksten, dvs fjerning av typografisk annotering og ev korrigering av trykkfeil, og i "tagging" og organisering.
Selv om innholdet i et nasjonalt språkkorpus her er definert ut fra de behov som språkteknologien har, er det klart at en slik samling av språkdata vil være av stor nytte for alle språkforskere.
Opphavsrettslige problemstillinger
Det eksisterer allerede en betydelig mengde med språkdata i Norge. Dette gjelder spesielt tekstdata og leksikalske data. Imidlertid er mesteparten av disse språkdataene beheftet med opphavsrettslige begrensninger på bruken. For eksempel sitter forlag og aviser på store mengder tekstdata som det ville være stor interesse for å innlemme i et nasjonalkorpus. Frigivelse av tekster i elektronisk form reiser umiddelbart spørsmål som hvordan man kan forhindre uautorisert mangfoldiggjøring og spredning, hvordan (og hvorvidt) bruk av og tilgang på tekstene bør begrenses, og eventuelt om kompensasjon for bruk. En løsning på disse spørsmålene er tett knyttet til hvordan nasjonalkorpuset skal forvaltes etter at datainnsamlingen er fullført.
Hvordan kan nasjonalkorpuset realiseres og forvaltes?
Jeg har over forsøkt å begrunne at store korpora med tale og tekst er nødvendig for formål som tilpasning av eksisterende produkter til norsk språk, utnyttelse av internasjonal teknologi til å skape nye produkter, også for grupper med spesielle behov, og for forskning, undervisning og utdanning.
Produksjon av gode språkteknologiske korpora er kostbart. Den nødvendige datamengden er tilnærmet den samme for alle språk, uavhengig av hvor mange som snakker språket. På grunn av den spesielle situasjonen i Norge, med to skriftmålsformer og med en utstrakt aksept av dialektbruk, er kravene til datamengde større for norsk språk enn for de fleste andre språk. Det lille markedet for norsk språkteknologi gjør at det ikke vil være kommersielt lønnsomt å etablere det nødvendige språkkorpus uten en vesentlig grad av offentlig finansiering. Realiseringen av et nasjonalkorpus som inneholder språkdata som er av generell art, og som skal dekke de grunnleggende, felles behov for språkdata for forskning og utvikling av norsk språkteknologi, er derfor et offentlig ansvar, og må være offentlig fullfinansiert.
Et scenario for realisering og forvaltning av et språkteknologisk nasjonalkorpus kan være følgende:
- Korpusets innhold defineres ved samråd mellom aktører innen forskning og utvikling, språkteknologisk industri og interessegrupper.
- Innsamling og bearbeiding gjøres på oppdrag av Forskningsrådet. Som hovedregel er finansieringen hundre prosent offentlig.
- Validering av korpuset, dvs. kontroll av at innsamlingen er gjort i samsvar med spesifikasjonene, gjennomføres/overvåkes av fagmiljøer etter oppdrag av Forskningsrådet.
- Forvaltning og distribusjon av korpuset legges til et uavhengig forvaltningsorgan, f.eks. det språkteknologiske sekretariat som er foreslått opprettet under Norsk språkråd, en særskilt stiftelse eller ELRA (European Language Resources Association).
- Vedlikehold og strategi for supplering regisseres av det foreslåtte språkteknologiske sekretariatet med bistand fra forsknings- og utviklingsmiljøene.
- Lisensering, ev betaling for bruk (økonomisk eller ved bidrag til korpuset) avgjøres av det foreslåtte språkteknologiske sekretariatet.
Selv om etableringen av et nasjonalkorpus er en nødvendig forutsetning for å utvikle en norsk språkteknologi, er en annen nødvendig forutsetning at man besitter den nødvendige fagkompetansen i Norge. Dette innebærer at man må satse på forskning og utvikling innen språkteknologi. Forskningen er grunnlaget for at man kan gjøre de riktige teknologivalgene, løse de spesielle problemene som det norske språkets særegenheter gir opphav til, og være et fundament for norsk språkteknologisk industri. Spesielt angår dette universitetsforskningen fordi sterke og tilstrekkelig store forskningsmiljøer på universitetene er en forutsetning for å kunne rekruttere studenter som skal bli bærebjelkene i framtidig språkteknologisk utvikling i Norge.
Framtiden til norsk språkteknologi er avhengig av at det tas et nasjonalt krafttak for å skaffe til veie de grunnleggende språkressursene. Dersom de grunnleggende forutsetninger i form av språkressurser, nasjonal kompetanse og vilje til støtte til utvikling av norskspråklige produkter er til stede, vil språkteknologien kunne være et viktig hjelpemiddel for alle språkbrukere, en hjelp til vern om norsk språk mot påvirkning fra fremmedspråk og en støtte til bedre bruk av språket vårt. I motsatt fall er sannsynligheten stor for at norsk vil bli gresk for språkteknologiske hjelpemidler og produkter.
Handbok i lærebokspråk
Språkrådet har utarbeidd ei større handbok i lærebokspråk med tanke på forlagskonsulentar, lærebokforfattarar, lærebokkonsulentar og andre. Boka har fått tittelen "Godt språk for eleven?" og er redigert av Dag. F. Simonsen. Boka kjem snart som papirutgåve, men kan alt no hentast på Internett her.
MÅLVETTPLAKATEN
Språkrådet har nyleg laga ein "målvettplakat" som oppsummerer dei viktigste punkta i mållova. Mållova regulerer bruken av bokmål og nynorsk i staten. Plakaten kan ein få gratis ved å vende seg til Språkrådet.
Det finst tre utgåver av plakaten: ein for sentrale statsorgan (statsorgan som har heile landet som tenestekrins, t.d. departement, direktorat, universitet og statlege høgskular), ein for regionale statsorgan (statsorgan der tenestekrinsen er mindre enn heile landet, men meir enn ein kommune, t.d. tolldistrikt, fylkesarbeidskontor, fylkeslikningskontor og dei fleste politidistrikta) og lokale statsorgan, som femner om ein kommune (t.d. likningskontor og trygdekontor).
Sei ifrå kva for ei utgåve du vil ha, når du bestiller plakaten.
HVA BØR EN SPRÅKTEKNOLOGISK SATSING INNEHOLDE?
HELGE DYVIK
Hva en norsk språkteknologisk satsing bør inneholde, avhenger åpenbart av hvilke utilfredsstilte behov vi ser rundt oss, som må tilfredsstilles hvis en norsk språkteknologi skal komme på bena. Jeg vil diskutere disse behovene under tre overskrifter:
Kunnskap
Ressurser
Holdninger
1 Kunnskap
Her kan vi igjen skille mellom tre typer av kunnskap:
a Datalingvistisk og språkteknologisk fagkunnskap
b Kunnskap, i egnede former, om norsk språk
c Kunnskap om markedets behov
a Datalingvistisk og språkteknologisk fagkunnskap
Foreløpig befinner slik fagkunnskap seg først og fremst i de datalingvistiske og teknologiske miljøene ved universitetene i Oslo, Bergen og Trondheim, og i bedrifter som f.eks. Telenor, Nordisk Språkteknologi og LingSoft. Forskningsmiljøene er små, og klart mindre enn den kritiske masse som må til for å vedlikeholde en grunnforsknings- og utdannelsesinnsats som kan understøtte en språkteknologisk satsing i Norge. Den datalingvistiske og språkteknologiske kunnskapen er internasjonal, men som alltid er det nødvendig å ha aktive forskningsmiljøer også her hjemme hvis vi skal kunne utnytte resultatene av den internasjonale forskningen, og hvis vi skal kunne utdanne de fagfolkene som trenges.
I tillegg til den spesialiserte fagkunnskap om datalingvistikk og språkteknologi som må utvikles og vedlikeholdes i forskningsmiljøene, kan vi også snakke om det språkteknologiske dannelsesnivå vi kan ønske oss for eksempel i universitets- og fakultetsledelsene, i Forskningsrådet, hos bevilgende myndigheter, i Språkrådet, i IT-miljøene, hos journalister, og i det hele tatt hos aktører medinnflytelse på prioriteringene. Et slikt dannelsesnivå bør f.eks. sette en aktør i stand til å skille mellom et potensielt produkt neste år, et potensielt produkt om 20 år, og en naiv utopi, og det bør sette henne i stand til å stille ubehagelig pertinente spørsmål under glatte demonstrasjoner av nye språkteknologiske produkter. Dette kan vi nærme oss hvis vi klarer å bevege flere studenter til å inkludere f.eks. datalingvistiske og språkteknologiske emner i sine fagkretser: En utfordring for fagmiljøene.
b Kunnskap, i egnede former, om norsk språk
Behovet for egnet kunnskap om norsk språk, innenfor ganske bestemte typer av forståelsesrammer, er hovedgrunnen til at vi trenger en egen norsk språkteknologisk satsing. Omfattende deskriptive studier av norsk uttale, særlig innenfor et akustisk rammeverk av den typen en språkteknologi trenger, er mangelvare. Videre trenger vi grammatikker – ikke beskrivelser i prosa, men formelle grammatikker som kan tolkes av analyse- og genereringsalgoritmer, grammatikker som er formulert i en formalisme tilpasset formålet med det aktuelle produkt. Og vi har behov for elektroniske ordbøker, eller leksikalske databaser, som tilfredsstiller langt strengere og til dels andre krav enn vanlige utgitte ordbøker gjør.
Vi diskuterer ofte grensene for hva det er mulig å få til av språkteknologiske produkter, for eksempel automatisk oversettelse eller tekstforståelse. Dette finnes det ulike forventninger om. Men uansett hvor langt vi kan komme, er det kanskje ikke for dristig å antyde at den viktigste forklaringen på avstanden mellom det stedet og der vi er i dag, ligger i mangelen av dekkende og tilpassede beskrivelser av språkenes leksika, deres ordforråd. På dette feltet trenger vi både en videreutvikling av teoretiske redskaper og et omfattende deskriptivt arbeid.
En annen viktig dimensjon i den nødvendige kunnskapen om norsk språk etableres av våre spesielle språkforhold, med to offisielle skriftspråk, hvert med store variasjonsmuligheter underlagt innviklede og ofte uskrevne begrensninger på hva som hører sammen med hva. Selv omvariasjon er et normalt skriftspråkfenomen, finner vi antagelig ikkemaken til Norges spesielle skriftspråksituasjon noen andre steder i verden. Derfor er de produkter vi måtte ønske å tilpasse til norsk, ofte ikke innrettet slik at denne type variasjonsbredde uten videre kan ivaretas. Med andre ord, vår skriftspråksituasjon er enda en grunn til at norsk språkteknologi ikke bare kanv3/4re et spørsmål om å tilpasse utenlandske produkter til norsk. Selve produktets arkitektur må ha tatt høyde for denne typen behov, som dessuten stiller krav til kunnskap om hvordan norsk skriftspråk faktisk ser ut: Hvilket spekter av de offisielt tillatte formene blir faktisk brukt, for eksempel, og hvordan grupperer de seg i operative subnormer?
I et foredrag påpekte Kåre Lilleholt fra Norsk språkråd mange viktige hensyn en norsk språkteknologi bør ivareta. Men han kom også med følgende uttalelse:
"Styresmaktene må ha et ord med i laget om hva som er god og rett norsk."
Både som lingvist og som interessert skriftspråkbruker kunne jeg tenke meg å ta avstand fra dette. Hva som er god og rett skriftlig norsk, er et empirisk spørsmål man studerer gjennom å undersøke hvordan folk faktisk skriver, og hvordan kompetente språkbrukere evaluerer det. Det er et spørsmål om å avsløre de uskrevne operative normer som regulerer faktisk språkbruk og tolkningen av den; det er ikke noe som vedtas av våre myndigheter. Selv om et demokratisk valgt Storting skulle finne på å beslutte at x er god og rett norsk, eller at y er dårlig stil, så forblir det et meningsløst vedtak hvis det er faktisk galt, og et overflødig vedtak hvis det er faktisk riktig. Det ville være et vedtak som røpet en grunnleggende sviktende forståelse av hva et språk er. (Noe annet er at myndighetene kan vedta at offentlige dokumenter skal skrives på en viss måte – det er noe annet enn å vedta at det er god og rett norsk.)
Hvorfor så mange ord om dette akademiske spørsmål? Av følgende grunn: Hvis vi virkelig er redde for at normeringen av den norsk som språkteknologien skal snakke og skrive, skal bli overtatt av bedrifter med kortsiktig fortjeneste som siktemål, så må vi ikke ri oss selv ut over sidelinjen på preskriptive kjepphester. Vi må skille klart mellom de preskriptive normer som er nedfelt i offisielle vedtak, og de operative normer som styrer det folk faktisk skriver og ved ettertanke finner i orden, vi må undersøke hvilke de sistnevnte er gjennom korpusbaserte studier, og vi må legge dem til grunn for språkressursutviklingen. Eller sagt på en annen måte: Vi må ikke av ideologiske grunner belemre norsk språkteknologi med et kaos av valgfrie former som aldri blir brukt.
c Kunnskap om markedets behov
Det er ikke universitetenes oppgave å utvikle markedsklare språkteknologiske produkter. Én grunn er at de ikke har, og ikke bør bruke sine ressurser på å utvikle, den markedskunnskap som trenges. En annen er at de ikke skal konkurrere med sine studenters fremtidige arbeidsgivere. En tredje er at det ville ta ressurser bort fra den mer grunnleggende forskningen, som det neppe er noen andre som vil ivareta.
Samtidig er det viktig at den grunnleggende forskningen og undervisningen som finner sted ved universitetene, er informert om markedets behov, og om nye produkter. Det kan skje gjennom gode kontakter mellom den språkteknologiske industrien og forskningsmiljøene. Vi bør ta sikte på et samarbeid mellom universitet og industri om hovedfags- og doktorgradsprosjekter der våre kandidater kan lære den anvendte og markedsorienterte siden av faget å kjenne, og der kunnskap om dette også tilflyter resten av forskningsmiljøene. Selv om ikke all forskning skal være anvendt forskning, vil slik kunnskap klart være en verdifull og potensielt retningsgivende inspirasjonskilde også for grunnforskningen.
2 Ressurser
Med ressurser menes her gjenbrukbare språkressurser. Våre dagers vekt på gjenbrukbare språkressurser har sin bakgrunn i den tradisjonelle situasjonen at slike ressurser – leksikalske databaser, tekstkorpora – oftest ble utviklet spesielt for det enkelte prosjekt eller det enkelte produkt. Dette er både uøkonomisk og uhensiktsmessig.
Utvikling av gjenbrukbare språkressurser fremstår som ett av de mest presserende områdene innenfor en norsk språkteknologisk satsing. Norge ligger etter sine naboland i utviklingen av gjenbrukbare språkressurser, selv om enkelte prosjekter er igang.
Elektroniske tekstkorpora er på mange måter den basale typen ressurs: store, skjønnsomt sammensatte tekstsamlinger, med kodet informasjon om tekstenes struktur og ordforekomstenes grammatiske egenskaper i form av tagger. Tagging av ordformer innebærer at hver enkelt ordform i teksten får tilføyd informasjon om hvilken oppslagsform den er en form av, og hvilke grammatiske kategorier den uttrykker. Slik tagging kan skje tilnærmet automatisk, men forutsetter da en viss type grammatikk, og et leksikon.
Samtidig er det taggede korpuset selv en ressurs for utvikling av grammatikker for andre formål, som f.eks. tekstforståelse eller maskinoversettelse. Da trenges grammatikker med større uttrykkskraft og andre formelle egenskaper. Videre er korpora også en uunnværlig ressurs ved utviklingen av mer omfattende leksika, eller leksikalske databaser. Taleteknologiske produkter trenger et ordforråd med fonetisk informasjon knyttet til oppslagene, og tekstforståelse, inferanse, informasjonssøkning, flerspråklig tekstbehandling og maskinoversettelse trenger ordforråd med semantisk informasjon knyttet til oppslagene.
Utvikling av ressurser må alltid tenkes sammen med så presise ideer som mulig om hva de skal brukes til. Gjenbrukbarhet sikres da bare hvis man har et så bredt spektrum av anvendelsesmuligheter som mulig i tankene, og det tilsier at utviklingen skjer i et åpent miljø med størst mulig kontaktflate mot ulike prosjekter som bruker ressursene.
Ideelt sett bør utviklingen av slike fellesressurser finansieres offentlig, og offentlig finansierte ressurser bør være fritt tilgjengelige både for forskningsformål og kommersielle formål. Men ved denne typen ressurser havner vi øyeblikkelig i vanskelige rettighetsproblemer. Tekstkorpora har forfattere hvis interesser naturligvis må ivaretas, og dette legger i praksis begrensninger på anvendeligheten. Hvis en felles språkteknologisk satsing kunne føre til fungerende løsninger på dette feltet, ville vi være kommet et langt skritt videre.
3 Holdninger
Allerede sammensetningen språkteknologi avbilder sammenføyningen av to kulturer: den humanistiske og den teknologiske. Men egentlig har vi to ganger to kulturer: På tvers av grensen mellom humaniora og teknologi går grensen mellom forskning og næringsliv. Og når fire kulturer møtes, er kollisjonsfaren stor. Teknologer og realister er utvilsomt mervant til å forholde seg til grensen mellom forskning og næringsliv enn humanister er. At humanistisk innsikt er teknologisk anvendelig, og derigjennom kommersielt interessant, er et forholdsvis nytt fenomen. Derfor er kanskje skepsisen til at teknologiske hensyn og markedsforhold skal være premissleverandører for forskningen, ekstra sterk i enkelte humanistiske miljøer.
Jeg tror ikke vi bør avfeie disse problemene som irrasjonelle, men prøve å skille mellom fordommer og legitime bekymringer. Underkategorien 'fordom' kan man rubrisere den holdning at en teknologisk tilnærming til språk er farlig fordi den må se bort fra alt som gjør språk til et humanistisk anliggende: språk som et sentralt kulturfenomen og språk som et meningsskapende redskap for mennesket. Tvert imot, kunne man si – i et historisk perspektiv fremtrer det som helt normalt at ny teknologigir nye forståelsesrammer for humanistiske emner, fra trykkekunsten til moderne massemedier. Det spesielle ved den moderne språkteknologien er den tydeligere teknologiske anvendbarheten av humanistisk innsikt den innebærer. Og den forutsetteri sin tur at språklige fenomener studeres ved hjelp av mer formelle og matematiske redskaper enn man ellers typisk finner i humanistiske miljøer (selv om lingvistiske miljøer har brukt slike teoretiske redskaper lenge). Her står vi overfor en holdningsbarriere som bør angripes hvis vi vil øke rekrutteringen til språkteknologiske emner: den holdning at formelle metoder – formell logikk, modellteoretisk semantikk, formell grammatikk- og automatteori, parsingteori, statistikk – er vesensfremmede for humanistiske fag og noe studenter ved humanistiske fakulteter med god samvittighet kan sky.
Samtidig finnes det en legitim bekymring her, som ikke behøver å være fordomsfull, nemlig at en teknologisk motivert satsing av den art vi snakker om, kan komme til å undervurdere behovet for mer langsiktig grunnforskning, og til å se bort fra at hvis slik forskning ikke får skje ved universitetene, så vil den ikke finne sted – i hvert fall ikke i et land uten bedrifter store nok til å drive egen grunnforskning. Det språkteknologiske forskningsprogrammet i EUs fjerde rammeprogram kunne gi opphav til slike refleksjoner. Der skulle ethvert prosjekt ikke bare ha en industriell partner, men også være ledet av en industriell partner, og dertil skulle veien til det ferdige produkt være klart synlig på forhånd og helst ikke ta mer enn tre år. Det var altså ikke tale om å utvikle ny kunnskap, men om å applisere eksisterende kunnskap.
Nå kan det være gode grunner til at den språkteknologiske satsingen i EU fikk denne formen. I visse perioder kan det naturligvis være velmotivert å prioritere applikasjon av eksisterende kunnskap foran utvikling av nykunnskap. Men den språkteknologiske satsingen i Norge bør ikke få denne formen. Den bør også reflektere inn en plass for grunnforskningen – men da vel å merke en grunnforskning som er engasjert i mulige språkteknologiske anvendelser og informert om markedets behov. Kanskje vi burde snakke om en anvendelsesorientert grunnforskning. Poenget er at satsingen også må gi rom for mer langsiktige prosjekter med sikte på å skaffe til veie ny grunnleggende kunnskap, i tillegg til de prosjektene som skal ha et salgbart produkt i den andre enden. Ellers tror jeg de små kildene vi foreløpig har til denne kunnskapsbaserte industrien, fort vil tørke inn.
OM FORMENE MENNER, BORN OG AUGO I LÆREBOKNORMALEN
ANDREAS BJØRKUM
I Språknytt nummer 1.98 skriv Jan Terje Faarlund om "Ny læreboknormal for nynorsk" og nye prinsipp for normeringi av nynorsk (frå side 1 til 3), og til slutt oppmodar han oss til å drøfta framleggi frå fagnemndi. Dei fem prinsippi som er oppsette på fyrste sida, ser greie ut ved fyrste augnekastet, men problemi melder seg snøgt når me ser på framleggi frå fagnemndi på andre og tredje sida. Eg vil her berre taka for meg dei tre dømi i overskrifti og sjå på utbreiingi deira i målføri og tilhøvet til nynorsk skrifttradisjon. Framleggi frå fagnemndi bryt sterkt med dei prinsippi som er nemnde i innleiingi åt Faarlund, og desse formene bør ikkje gå ut or læreboknormalen etter mitt syn. Det skal eg grunngjeva nedanfor.
Formene or målføri våre som eg syner til her, er tekne or synopsisen, samleverket, i Målførearkivet, og dei er tilgjengelege for alle i samlingane våre.
Formi menner
På Austlandet er menner den vanlege fleirtalsformi, t.d. i Østfold, Vestfold (med ein open a-lyd som innskotsvokal) og nordetter flatbygdene so langt som -r held seg. I Nord-Østerdalen og Nord-Gudbrandsdalen har hankjønns- og hokjønnsord med omlyd og einstavings tonelag i fleirtal fått bortfall av endingi (t.d. føt, bøk), og her er då menn den einaste formi. Sameleis er det i Nordhordland (sjå nedanfor). Dei lyt læra å skriva føter, bøker, og formi menner vil då fylgja same regelen for dei i opplæringi. Frå og med Valdres og søretter fjellrekkja til Telemark, indre Agder og vestetter til Dalane i Rogaland er innskotsvokalen -a i desse hankjønns- og hokjønnsordi, og her er menna(r) eineform. (Denne -a-en kjenner me frå midlandsmålet, t.d. hjå Garborg). Heile Vestlandet til og med Sunnmøre (frårekna Nordhordland, som ikkje har innskotsvokal) held på -e i fleirtal, med -er i Nord-Rogaland, Sunnhordland og Hardanger, (på Voss med -u i fleirtal, den sermerkte vossa-u-en), og etter desse målføri er menner den einaste brukelege formi i skriftmålet.
Formi mann i fleirtal finn me i Romsdalen, på Nordmøre (Stemshaug har -er) og i mykje av Sør-Trøndelag (med bortfall av innskotsvokalen slik som i Nord-Østerdalen og Nord-Gudbrandsdalen), men rundt Trondheim, i sjølve byen og sume stader i Fosen er -er vanleg (sameleis i Melhus og Hølonda). Frå og med Innherad i Namdalen og på Helgeland held desse omlydde ordi på -r i fleirtal, og menner er den rådande formi helt nord til Rana og Salten.
Frå og med Ofoten og nordetter i Nordland, i det meste av Troms og i heile Finnmark er den analogiske formi manna so godt som einerådande (med palatal -n og tostavings tonelag), berre med spreidde døme på menn(er), og menn i bymåli i Kirkenes og Vadsø.
Dette syner då greitt at det er heilt meiningslaust å taka ut formi menner or læreboknormalen, for eigenleg er det formi menn som er avvikande i nynorsk, både i skrift- og talemål, og ho har eigenleg ikkje krav på noko rom (anna enn om ein vil leggja vekt på ei tilnærming til bokmål?). Dersom det skal gjerast noko med desse formene, ville eg heller ha teke ut formi menn for å skapa konsekvens i opplæringi. Formi menner må i alle høve verta ståande.
Fleirtalsformi born
Fagnemndi i Språkrådet vil no taka fleirtalsformi born ut or læreboknormalen, skriv Faarlund. Denne utskytingi or læreboknormalen må meir byggja på eit ynske om systematikk enn på kunnskap om bruken i målføri. Bruken i skriftmålet òg stør formi born. Eg vil her gjeva Språkrådet dei nyare opplysningane me har i Målførearkivet om den vide utbreiingi av denne omlydde fleirtalsformi, slik at ho fullt ut kan få halda på plassen sin.
Eintalsformene får me fara noko lettvint over, men dei skifter frå barn (i bymåli og etter skriftmålet), badn (i sørvestlandsk), bådn (Hallingdal og Valdres), alle med lang vokal, til ban (med palatal n) frå og med ytre Sogn og Nord-Østerdalen og nordetter, og bån (med lang å) frå Gudbrandsdalen og Sør-Østerdalen og søretter til og med Aust-Agder.
Fleirtalsformi er då i regelen båddn (i sørvestlandsk, med stutt, open o-lyd), bøddn (Hallingdal Valdres), bånn (med palatal n) frå ytre Sogn til og med Romsdalen, på Nordmøre, i Trøndelag, Nord-Noreg og Nord-Østerdalen. I målføre med bån i eintal har dei fleirtalsformer med bonn, bånn (med open o-lyd eller ö), i Vest-Telemark og Setesdalen, og fleirtalsformene bon, bån med lang vokal finn me i Aust-Telemark, Numedal, indre Vestfold, i Østfold og Akershus (òg barn der); bon er vanleg i mange opplandsmål (Toten, Hedmark, Solør) og i Sør-Østerdalen, og i heile Gudbrandsdalen er bon eineform i fleirtal.
Formi born i fleirtal er då den samlande formi for alle desse målføreformene med omsyn til vokalismen. Fleire vil seia at dei heller vil bruka ordet unge, i fleirtal unga(r), i daglegtalen, då med sine uttaleformer, men i skriftmålet og i lærebøkene treng me jamt ordet barn, og då er vokalismen i fleirtalsformi born i samsvar med dei aller fleste målføri, so Språkrådet må framleis lata denne formi få ha romet sitt i læreboknormalen.
auga – augo
Linne inkjekjønnsord på -a, t.d. auga, hjarta, øyra, har hatt jamstelte former med -a eller -e i endingi (i siste høvet med -t i bundi form og fleirtal med -e og bundi form på -a, dei auga), men no skal dei få ny status, med di -a skal gå ut or læreboknormalen, skriv Faarlund, og det dreg med seg at dei tradisjonelle formene med fleirtal på -o, augo, hjarto, øyro, òg fell ut. Denne omskipingi må vera heilt uturvande og forkasteleg, for formene med -a har svært vid utbreiing i talemålet og har jamt vore mykje nytta i skriftmålet òg; jamfør serleg punkt 2 og 3 i prinsippi hjå Faarlund.
Me skal her sjå på utbreiingi av -a i ubundi form eintal, og me brukar auga til typedøme. Alle dei sørvestlandske a-måli (målføri frå og med midtre og indre Sogn til og med Vest-Agder) har -a, og mest heile e-måldelen av ytre Sogn og Jostedalen held på -a her. I austnorske mål finn me formerr med -a (trass i den lange stavingi) i Nord-Gudbrandsdalen og Midt-Gudbrandsdalen (Fron og halve Ringebu), i Valdres (til og med Etnedal og halve Sør-Aurdal), i Hallingdal (ned til og med Flå), i noko av Aust-Telemark (t.d. Hjartdal) og heile Vest-Telemark. Vidare finn me -a i dei sørlege e-måli frå Nissedal og Fyresdal (i Telemark), og i heile Setesdalen (frårekna Evje), Tovdal og Gjøvdal i Aust-Agder, men Åmli skil seg ut med -e i hjarte (elles -a). I Aust- og Midt-Telemark skifter -a og -e noko (t.d. i Bø og Sauherad).
På indre Nordmøre finn me -a i bygdene Sunndal, Ålvundeid og Øksendal (òg -e i Øksendal), og dei ytre bygdene Aure, Valsøyfjord og Stemshaug har -a, sameleis i Hemne og Vinje i Sør-Trøndelag (grensebygder mot Nordmøre). I ytre Namdalen fylgjer Leka, Vikna og Nærøy helgelandsmålet med -a, og -a (eller ein noko opnare a-lyd, mot æ) er vanleg på Sør-Helgeland. Lenger nord i Nordland held endingi -a seg i Salta-Folda-området (trass i endingsbortfallet i ei mengd andre former), og -a er vanleg i Ofoten. Former med -a frå Kvæfjord, Torsken og Balsfjord i Troms kan truleg vera hokjønnsord (i alle høve frå Balsfjord).
Denne opprekningi syner til fullnads kor sterkt -a-endingi står i målføri, og Språkrådet må lata -a få stå i læreboknormalen slik som før, og då med flerital på -o, -o som i tradisjonelt mål.
Tillegg: Det er med vilje eg ikkje tek opp fleirtalsformene her, men fagnemdi burde taka seg tid til ei skikkelig drøfting av problemet med fleirtalsformene i lint inkjekjønn, for i svært mange målføre har desse ordi fått nye, analogiske hokjønnsformer i fleirtal, endå om inkjekjønn eintal står ved lag. I regelen er desse analogiske fleirtalsformene etter dei linne høkjønnsordi, t.d. auge(r), -o(r), -u(r) og bundi form på -en(n), -edn, -edna, -on(n), -un(n) og -udn etter den endingi målføret har der. Tilfanget er rikeleg i synopsen vår i arkivet, om nokon vil bruka dette materialet til eit oversyn.
ORDTILFANGET I NYNORSK
Retningsliner for opptak av ord i nynorsk skal drøftast på årsmøtet i Språkrådet 2.–3. februar 1999. Språkrådet gir difor ut ei artikkelsamling om ymse spørsmål i samband med ordtilfanget, Artiklane er dels skrivne av språkforskarar som ser spørsmåla ut frå sin faglege ståstad, dels er dei skrivne av folk som har profesjonell røynsle med nynorsk ordtilfang frå arbeidet sitt. Også den organiserte målrørsla er representert i artikkelsamlinga. Heftet vi liggje føre rundt årsskiftet og kan bestillast direkte frå Språkrådet.
GRAMMATIKKBITEN – MEIR OM EIT LITE ORD
I eit avisinnlegg kommenterer ein innsendar, som heiter Tore, denne konstruksjonen: "... som han nå konstaterer at er utilstrekkelig". Tore spør så: "Hva i all verden skal konjunksjonen at ha der å gjøre? Dårlig norsk etter min oppfatning." Mange vil vera samde med Tore i at setninga hadde vore betre utan at. Men det finst ingen normativ regel eller vedtak om at det ikkje skal vera at i slike setningar. Det er derfor interessant at Tore reagerer som han gjer. Det vil seia at han har ein intuisjon om at det ikkje går an med at i slike konstruksjonar.
Men i setningar som liknar svært på denne, vil alle utan vidare godta at, som f.eks. i "en bevilgning som han nå konstaterer at vi trenger". I begge desse to eksempla står det ei at-setning inne i ei relativsetning. Relativsetningar manglar alltid eit ledd, dei har ein tom plass, som svarar til eit ledd utafor setninga. I den bilen som ho kjøpte manglar det eit ledd (objektet) bak kjøpte, og her tolkar vi inn det leddet som står føre relativsetninga, den bilen.
I dei aktuelle eksempla våre her høyrer det manglande leddet til inne i at-setninga: at [bevilgningen] er utilstrekkelig – Han konstaterer at vi trenger [bevilgningen]. I det fyrste tilfellet er det subjektet som manglar i at-setninga, i det andre tilfellet er det objektet. Det Tore reagerer på, er at subjunksjonen at blir ståande igjen når subjektet manglar, med andre ord at vi har ein tom plass like etter at. Tore er her i godt selskap. Den amerikanske språkforskaren Noam Chomsky, som dei fleste vil rekna som vår tids viktigaste språkteoretikar, sette for nokre år sidan fram ein teori om at ingen av dei språka som har subjekt i alle normale setningar, kunne ha ein slik tom plass etter subjunksjonen at. Dette var altså ikkje ein normativ regel om godt og dårleg språk, men ein teori om den grammatiske intuisjonen hos alle menneske. Tores reaksjon underbyggjer dermed Chomskys teori. Problemet er berre at Chomsky tok feil, for det finst språk der det er heilt vanleg å uttrykkja seg slik som i Tores sitat, og det finst norske dialektar eller variantar som heller ikkje har problem med dette. Den journalisten som skreiv setninga som Tore reagerer på, har tydelegvis ein slik dialekt.
Heller ikkje her er det altså tale om god eller dårleg norsk, men om to ulike variantar av norsk.
NYORD
VIGLEIK LEIRA
diskettflakking Såkalt diskettflakking, som skjer når folk tar med seg disketter mellom hjem og jobb, er den viktigste årsaken til spredning av datavirus, sa høgskolelektor Frode Haug under åpningen av forskningsdagene ved Høgskolen i Gjøvik i går.
Oppland Arbeiderblad 22.9.1998.
eurofeminist Her i den vestlige verden er islam også synonym med kvinnemishandling, drap, mord, voldtekt osv. Mange av de hvite euro-feministiske organisasjonene og venstreorienterte partiene er eksponenter for slike holdninger.
Marianayagam Arulnesan i Klassekampen 18.9.1998
fundamentaldemokrat "Disiplin" var det grovaste fyord ein kunne bruka i SF. [...] Opposisjon – om aldri så aparte – var "interessant" og skulle iallfall ikkje møtast "hardhendt". Meinte fundamentaldemokratane i SF mot fundamentalistane i SUF. At demokratiske spelereglar var avløyst av kommunistpartiets kader- og kuppmodellar, var uforståeleg for partimedlemer som heldt det frie ord høgare enn det meste i eit parti.
Berge Furre i Aftenposten 19.9.1998.
fusjonskamerater Finansminister Gudmund Restad fra Senterpartiet sa seg i går positivt interessert, og kalte planene spennende. Voksenåserklæringen vil riktignok desentralisere makt, men den vil også ha et finansielt tyngdepunkt utenfor Oslo. Postkontor vil den også ha. Akkurat som Tormod Hermansen og hans fusjonskamerater har beregnet.
Dagsavisen 16.9.1998.
kliss utvida bruk: Hun var kliss naken, ikke helt edru, og hun nektet å forlate bilen når eieren skulle hjem. Men bileieren syntes IKKE det var festlig.
Varden 31.8.1998.
Nunavut 1. april vil det blåse fridomsvindar nord for Hudson-bukta. På ein kvit flekk på det kanadiske kartet vil det syne seg eit nytt territorium. Det skal heite Nunavut og blir ein stat i staten for herskarane av Arktis – inuitane.
Dag og Tid 1o.9.1998.
nytrønder For det andre har han vondt for å stole på den plutselige Trondheims-entusiasmen. [...] Derfor frykter han at "nytrønderne" reiser sørover igjen etter en stund, og at de tar med seg Fokus på lasset.
Aftenposten 19.9.1998, intervju med Trond R. Reinertsen.
spikertelt Spikertelt er et slags fortelt til campingvogn som er bygget i tre. Slike konstruksjoner er blitt svært populære, spesielt ved campingplasser langs kysten hvor vanlige fortelt til stadighet blir tatt av vær og vind. Nå foreslår altså Agdenes kommune et forbud mot slike spikertelt.
Sør-Trøndelag 8.9.l998.
sviresøster De andre 160 reisende reagerte sterkt på oppførselen deres. De to skal ha sjenert flere medpassasjerer, og ble nektet servering på flyhavnpuben. Likevel maktet de to "sviresøstrene" å passere sikkerhetskontrollen utpå natta.
Dagbladet 23.9.1998.
sægge Det er harry for jenter å sægge, kvitterer Willy (alias William). For det gjør nemlig både Line og Gry. Ikke mye, men av og til. [...] Skatere "sægger" – har buksene langt nede på hoftene.
Aftenposten 26.12.l998. (Av engelsk sag)
FORFATTERNE
Andreas Bjørkum er professor i målføre ved Universitetet i Oslo
Helge Dyvik er professor i allmenn lingvistikk ved Seksjon for lingvistiske fag, Universitetet i Bergen. Han har vori aktiv i å utvikla faget datalingvistikk ved instituttet sitt frå byrjinga av åttiåra
Jan Terje Faarlund er professor i nordisk språkvitskap ved Universitetet i Oslo
Vigleik Leira er rådgivar i Norsk språkråd
Kåre Lilleholt er professor i jus ved Universitetet i Bergen og leiar i Norsk språkråd
Torbjørn Nordgård er professor ved Lingvistisk institutt ved Noregs teknisk-naturvitskapelege universitet i Trondheim. Han er prosjektleiar for NorKompLeks (Norsk komputasjonelt leksikon). Han har arbeidd med automatisk setningsanalyse, formell syntaks, semantikk og datamaskinell leksikografi
Torbjørn Svendsen er professor ved Institutt for teleteknikk ved Noregs teknisk-naturvitskapelege universitet. Han har arbeidd med taleteknologi i nær på 20 år og sidan åttiåra med taleattkjenning og dialogsystem