Um höfundinn
Eiríkur Rögnvaldsson

Eiríkur Rögnvaldsson

Eiríkur Rögnvaldsson er prófessor emeritus í íslenskri málfræði. Undanfarin ár hefur hann einkum fengist við máltækni en hefur einnig stundað rannsóknir í samtímalegri og sögulegri setningafræði, svo og orðhlutafræði og hljóðkerfisfræði. Sjá nánar

Ég geri ráð fyrir því að flestir lesendur hafi einhvern tíma hringt í þjónustuver, t.d. hjá símafyrirtæki, þar sem þeim er boðið að velja milli nokkurra kosta með því að ýta á mismunandi takka á símanum – 1 fyrir sölu áskrifta, 2 fyrir reikninga, 3 fyrir tæknilega aðstoð, o.s.frv. Stundum eru möguleikarnir svo margir að notandinn tapar þræðinum og man ekki að upptalningu lokinni fyrir hvað 1 stóð eða hvernig átti að velja tæknilega aðstoð. Þegar notandanum hefur svo tekist að velja rétta kostinn er eins víst að hann sé númer 29 í röðinni og þurfi að bíða óratíma eftir að fá svar við fyrirspurn sem jafnvel væri hægt að svara með einu orði eða einni setningu.

En þetta þarf ekki að vera svona. Í mörgum þjónustuverum erlendis þarf ekki að bíða eftir því að þjónustufulltrúi losni, heldur er það tölva sem hlustar á erindi notandans og greinir merkingu þess. Sú greining er síðan send til gagnabanka þar sem er að finna svör við margvíslegum fyrirspurnum, og viðeigandi svar sótt í bankann. Því svari er svo breytt í eðlilega setningu og hún send til tölvubúnaðar sem les hana fyrir notandann. Hugsanlega er svarið fullnægjandi þannig að notandinn geti þakkað fyrir sig og kvatt, en að öðrum kosti spyr hann áfram og sama ferlið endurtekur sig – spurningin er greind, svar sótt í gagnabanka o.s.frv.

Tölvan getur annað miklum fjölda fyrirspurna í einu þannig að biðtími nánast hverfur. Vissulega eru fyrirspurnir stundum of flóknar til að hægt sé að afgreiða þær á þann hátt, og þá á notandinn þess alltaf kost að biðja um samband við mennskan þjónustufulltrúa – eða tölvan gefur samband við þjónustufulltrúa ef hún skilur ekki fyrirspurnina eða getur ekki svarað henni. Þjónustuver af þessu tagi eru þó ekki til á Íslandi – ekki enn a.m.k. Forsenda þeirra er nefnilega flókin málfræðileg greining og þróaður hugbúnaður sem talsvert vantar á að til sé fyrir íslensku. En um þessar mundir er þó verið að stíga tvö mikilvæg skref í átt til slíks búnaðar.

Annars vegar er unnið að nýjum íslenskum talgervli á vegum Blindrafélagsins, en talgervill er hugbúnaður sem les upp ritaðan texta. Það er pólska fyrirtækið IVONA sem býr talgervilinn til með málfræðilegri og tæknilegri aðstoð fræðimanna frá Máltæknisetri (Háskóla Íslands og Háskólanum í Reykjavík). IVONA hefur á undanförnum árum gert talgervla fyrir allmörg tungumál og þeir hafa komið mjög vel út í samanburði við talgervla stórfyrirtækja á borð við Microsoft, Nuance, Loquendo, Acapela o.fl. Nýi talgervillinn mun búa yfir bæði karlrödd og kvenrödd, ólíkt eldri íslenskum talgervlum sem aðeins hafa talað einni röddu.

Í vor var gert mállíkan fyrir talgervilinn, með upplýsingum um íslensk málhljóð, hljóðasambönd og ýmis sérkenni tungumálsins. Upptökur beggja raddanna fóru fram síðsumars og síðan hefur IVONA unnið að því út frá mállíkaninu að matreiða þessar upptökur og búa til talgervil. Tilraunaútgáfa talgervilsins lofar mjög góðu en hún verður kynnt á degi íslenskrar tungu, 16. nóvember. Þá taka við umfangsmikil hlustunarpróf þar sem gæði talgervilsins verða metin og bent á galla sem þarf að bæta úr. Þeir geta verið margvíslegir – í framburði einstakra hljóða og hljóðasambanda, í tónfalli, í lestri úr tölum og skammstöfunum, o.fl. Endanleg verklok hafa ekki verið tímasett, en vonast er til að fullbúinn talgervill komi á markað vorið 2012.

Hitt verkefnið sem nú er unnið að nefnist Almannarómur og felst í söfnun raddsýna til að nota við gerð íslensks talgreinis, en talgreinir er hugbúnaður sem greinir og túlkar tal, ýmist í samhengi eða stök orð. Að verkefninu standa Háskólinn í Reykjavík og Máltæknisetur, í samvinnu við rannsóknardeild Google. Raddsýnin eru tekin upp á Android-snjallsíma og er ætlunin að taka upp tal allt að 200 Íslendinga, um 500 yrðingar frá hverjum – fólki af báðum kynjum og á ýmsum aldri. Upptökurnar verða settar á vef Google og þannig aðgengilegar öllum sem vilja nýta þær til rannsókna eða til þróunar máltæknibúnaðar.

Google Maps skilur þegar talað er við það.

Google vinnur að því að setja talviðmót á leitarvél sína, þannig að menn geti lesið leitarfyrirspurn í hljóðnema í stað þess að slá hana inn á lyklaborðið. Slíkt viðmót er reyndar þegar komið á sumar leitarsíður Google, t.d. á ensku aðalsíðuna (google.com) og kortavefinn (maps.google.com). Þar er táknmynd hljóðnema aftast í leitarlínunni og sé smellt á hana getur notandinn borið fram fyrirspurn sína í töluðu máli – að því tilskildu að hljóðnemi sé tengdur við tölvuna. Þróunin á þessu sviði er mjög ör um þessar mundir og má þar t.d. benda á Siri-hugbúnaðinn í iPhone-símum. Með því efni sem Almannarómur safnar er kominn grundvöllur að þróun nýs íslensks talgreinis, þótt enn sé óvíst hvenær hann verður tilbúinn.

Þótt þessi tvö verkefni skili þeim árangri sem vonast er til þýðir það ekki að við getum þar með farið að ræða við tölvurnar á íslensku. Það þarf einnig að greina setningagerð þess sem notandinn segir til að átta sig á merkingunni og tölvan þarf því að kunna reglur um íslenska setningagreiningu; hún þarf að hafa aðgang að góðu orðasafni til að geta flett einstökum orðum upp; og búa yfir að viðamiklum gagnabanka þar sem spurningar og svör eru tengd saman, svo og reglum sem gera henni kleift að orða svörin á eðlilegri íslensku. En nýr íslenskur talgervill og talgreinir ættu samt að skila okkur talsverðan spöl í rétta átt.


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

news-1701

sabung ayam online

yakinjp

yakinjp

rtp yakinjp

slot thailand

yakinjp

yakinjp

yakin jp

yakinjp id

maujp

maujp

maujp

maujp

slot mahjong

SGP Pools

slot mahjong

sabung ayam online

slot mahjong

SLOT THAILAND

article 888000081

article 888000082

article 888000083

article 888000084

article 888000085

article 888000086

article 888000087

article 888000088

article 888000089

article 888000090

article 888000091

article 888000092

article 888000093

article 888000094

article 888000095

article 888000096

article 888000097

article 888000098

article 888000099

article 888000100

cuaca 898100126

cuaca 898100127

cuaca 898100128

cuaca 898100129

cuaca 898100130

cuaca 898100131

cuaca 898100132

cuaca 898100133

cuaca 898100134

cuaca 898100135

cuaca 898100136

cuaca 898100137

cuaca 898100138

cuaca 898100139

cuaca 898100140

cuaca 898100141

cuaca 898100142

cuaca 898100143

cuaca 898100144

cuaca 898100145

cuaca 898100146

cuaca 898100147

cuaca 898100148

cuaca 898100149

cuaca 898100150

cuaca 898100151

cuaca 898100152

cuaca 898100153

cuaca 898100154

cuaca 898100155

cuaca 898100156

cuaca 898100157

cuaca 898100158

cuaca 898100159

cuaca 898100160

cuaca 898100161

cuaca 898100162

cuaca 898100163

cuaca 898100164

cuaca 898100165

cuaca 898100166

cuaca 898100167

cuaca 898100168

cuaca 898100169

cuaca 898100170

cuaca 898100171

cuaca 898100172

cuaca 898100173

cuaca 898100174

cuaca 898100175

article 710000151

article 710000152

article 710000153

article 710000154

article 710000155

article 710000156

article 710000157

article 710000158

article 710000159

article 710000160

article 710000161

article 710000162

article 710000163

article 710000164

article 710000165

article 710000166

article 710000167

article 710000168

article 710000169

article 710000170

article 710000171

article 710000172

article 710000173

article 710000174

article 710000175

article 710000176

article 710000177

article 710000178

article 710000179

article 710000180

article 710000181

article 710000182

article 710000183

article 710000184

article 710000185

article 710000186

article 710000187

article 710000188

article 710000189

article 710000190

article 710000191

article 710000192

article 710000193

article 710000194

article 710000195

article 710000196

article 710000197

article 710000198

article 710000199

article 710000200

psda 438000036

psda 438000037

psda 438000038

psda 438000039

psda 438000040

psda 438000041

psda 438000042

psda 438000043

psda 438000044

psda 438000045

psda 438000046

psda 438000047

psda 438000048

psda 438000049

psda 438000050

psda 438000051

psda 438000052

psda 438000053

psda 438000054

psda 438000055

psda 438000056

psda 438000057

psda 438000058

psda 438000059

psda 438000060

psda 438000061

psda 438000062

psda 438000063

psda 438000064

psda 438000065

psda 438000066

psda 438000067

psda 438000068

psda 438000069

psda 438000070

psda 438000071

psda 438000072

psda 438000073

psda 438000074

psda 438000075

psda 438000076

psda 438000077

psda 438000078

psda 438000079

psda 438000080

psda 438000081

psda 438000082

psda 438000083

psda 438000084

psda 438000085

psda 438000086

psda 438000087

psda 438000088

psda 438000089

psda 438000090

psda 438000091

psda 438000092

psda 438000093

psda 438000094

psda 438000095

psda 438000096

psda 438000097

psda 438000098

psda 438000099

psda 438000100

psda 438000101

psda 438000102

psda 438000103

psda 438000104

psda 438000105

psda 438000106

psda 438000107

psda 438000108

psda 438000109

news-1701