Um höfundinn
Eiríkur Rögnvaldsson

Eiríkur Rögnvaldsson

Eiríkur Rögnvaldsson er prófessor emeritus í íslenskri málfræði. Undanfarin ár hefur hann einkum fengist við máltækni en hefur einnig stundað rannsóknir í samtímalegri og sögulegri setningafræði, svo og orðhlutafræði og hljóðkerfisfræði. Sjá nánar

Ég geri ráð fyrir því að flestir lesendur hafi einhvern tíma hringt í þjónustuver, t.d. hjá símafyrirtæki, þar sem þeim er boðið að velja milli nokkurra kosta með því að ýta á mismunandi takka á símanum – 1 fyrir sölu áskrifta, 2 fyrir reikninga, 3 fyrir tæknilega aðstoð, o.s.frv. Stundum eru möguleikarnir svo margir að notandinn tapar þræðinum og man ekki að upptalningu lokinni fyrir hvað 1 stóð eða hvernig átti að velja tæknilega aðstoð. Þegar notandanum hefur svo tekist að velja rétta kostinn er eins víst að hann sé númer 29 í röðinni og þurfi að bíða óratíma eftir að fá svar við fyrirspurn sem jafnvel væri hægt að svara með einu orði eða einni setningu.

En þetta þarf ekki að vera svona. Í mörgum þjónustuverum erlendis þarf ekki að bíða eftir því að þjónustufulltrúi losni, heldur er það tölva sem hlustar á erindi notandans og greinir merkingu þess. Sú greining er síðan send til gagnabanka þar sem er að finna svör við margvíslegum fyrirspurnum, og viðeigandi svar sótt í bankann. Því svari er svo breytt í eðlilega setningu og hún send til tölvubúnaðar sem les hana fyrir notandann. Hugsanlega er svarið fullnægjandi þannig að notandinn geti þakkað fyrir sig og kvatt, en að öðrum kosti spyr hann áfram og sama ferlið endurtekur sig – spurningin er greind, svar sótt í gagnabanka o.s.frv.

Tölvan getur annað miklum fjölda fyrirspurna í einu þannig að biðtími nánast hverfur. Vissulega eru fyrirspurnir stundum of flóknar til að hægt sé að afgreiða þær á þann hátt, og þá á notandinn þess alltaf kost að biðja um samband við mennskan þjónustufulltrúa – eða tölvan gefur samband við þjónustufulltrúa ef hún skilur ekki fyrirspurnina eða getur ekki svarað henni. Þjónustuver af þessu tagi eru þó ekki til á Íslandi – ekki enn a.m.k. Forsenda þeirra er nefnilega flókin málfræðileg greining og þróaður hugbúnaður sem talsvert vantar á að til sé fyrir íslensku. En um þessar mundir er þó verið að stíga tvö mikilvæg skref í átt til slíks búnaðar.

Annars vegar er unnið að nýjum íslenskum talgervli á vegum Blindrafélagsins, en talgervill er hugbúnaður sem les upp ritaðan texta. Það er pólska fyrirtækið IVONA sem býr talgervilinn til með málfræðilegri og tæknilegri aðstoð fræðimanna frá Máltæknisetri (Háskóla Íslands og Háskólanum í Reykjavík). IVONA hefur á undanförnum árum gert talgervla fyrir allmörg tungumál og þeir hafa komið mjög vel út í samanburði við talgervla stórfyrirtækja á borð við Microsoft, Nuance, Loquendo, Acapela o.fl. Nýi talgervillinn mun búa yfir bæði karlrödd og kvenrödd, ólíkt eldri íslenskum talgervlum sem aðeins hafa talað einni röddu.

Í vor var gert mállíkan fyrir talgervilinn, með upplýsingum um íslensk málhljóð, hljóðasambönd og ýmis sérkenni tungumálsins. Upptökur beggja raddanna fóru fram síðsumars og síðan hefur IVONA unnið að því út frá mállíkaninu að matreiða þessar upptökur og búa til talgervil. Tilraunaútgáfa talgervilsins lofar mjög góðu en hún verður kynnt á degi íslenskrar tungu, 16. nóvember. Þá taka við umfangsmikil hlustunarpróf þar sem gæði talgervilsins verða metin og bent á galla sem þarf að bæta úr. Þeir geta verið margvíslegir – í framburði einstakra hljóða og hljóðasambanda, í tónfalli, í lestri úr tölum og skammstöfunum, o.fl. Endanleg verklok hafa ekki verið tímasett, en vonast er til að fullbúinn talgervill komi á markað vorið 2012.

Hitt verkefnið sem nú er unnið að nefnist Almannarómur og felst í söfnun raddsýna til að nota við gerð íslensks talgreinis, en talgreinir er hugbúnaður sem greinir og túlkar tal, ýmist í samhengi eða stök orð. Að verkefninu standa Háskólinn í Reykjavík og Máltæknisetur, í samvinnu við rannsóknardeild Google. Raddsýnin eru tekin upp á Android-snjallsíma og er ætlunin að taka upp tal allt að 200 Íslendinga, um 500 yrðingar frá hverjum – fólki af báðum kynjum og á ýmsum aldri. Upptökurnar verða settar á vef Google og þannig aðgengilegar öllum sem vilja nýta þær til rannsókna eða til þróunar máltæknibúnaðar.

Google Maps skilur þegar talað er við það.

Google vinnur að því að setja talviðmót á leitarvél sína, þannig að menn geti lesið leitarfyrirspurn í hljóðnema í stað þess að slá hana inn á lyklaborðið. Slíkt viðmót er reyndar þegar komið á sumar leitarsíður Google, t.d. á ensku aðalsíðuna (google.com) og kortavefinn (maps.google.com). Þar er táknmynd hljóðnema aftast í leitarlínunni og sé smellt á hana getur notandinn borið fram fyrirspurn sína í töluðu máli – að því tilskildu að hljóðnemi sé tengdur við tölvuna. Þróunin á þessu sviði er mjög ör um þessar mundir og má þar t.d. benda á Siri-hugbúnaðinn í iPhone-símum. Með því efni sem Almannarómur safnar er kominn grundvöllur að þróun nýs íslensks talgreinis, þótt enn sé óvíst hvenær hann verður tilbúinn.

Þótt þessi tvö verkefni skili þeim árangri sem vonast er til þýðir það ekki að við getum þar með farið að ræða við tölvurnar á íslensku. Það þarf einnig að greina setningagerð þess sem notandinn segir til að átta sig á merkingunni og tölvan þarf því að kunna reglur um íslenska setningagreiningu; hún þarf að hafa aðgang að góðu orðasafni til að geta flett einstökum orðum upp; og búa yfir að viðamiklum gagnabanka þar sem spurningar og svör eru tengd saman, svo og reglum sem gera henni kleift að orða svörin á eðlilegri íslensku. En nýr íslenskur talgervill og talgreinir ættu samt að skila okkur talsverðan spöl í rétta átt.


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

news-1701

yakinjp


sabung ayam online

yakinjp

yakinjp

rtp yakinjp

yakinjp

slot thailand

yakinjp

yakinjp

yakin jp

ayowin

yakinjp id

maujp

maujp

sabung ayam online

sv388

taruhan bola online

maujp

maujp

sabung ayam online

sabung ayam online

sabung ayam online

judi bola online

sabung ayam online

judi bola online

slot mahjong ways

slot mahjong

sabung ayam online

judi bola

live casino

118000491

118000492

118000493

118000494

118000495

118000496

118000497

118000498

118000499

118000500

118000501

118000502

118000503

118000504

118000505

118000506

118000507

118000508

118000509

118000510

118000511

118000512

118000513

118000514

118000515

118000516

118000517

118000518

118000519

118000520

118000521

118000522

118000523

118000524

118000525

128000546

128000547

128000548

128000549

128000550

128000551

128000552

128000553

128000554

128000555

128000556

128000557

128000558

128000559

128000560

128000561

128000562

128000563

128000564

128000565

128000566

128000567

128000568

128000569

128000570

128000571

128000572

128000573

128000574

128000575

128000576

128000577

128000578

128000579

128000580

128000581

128000582

128000583

128000584

128000585

128000586

128000587

128000588

128000589

128000590

158000326

158000327

158000328

158000329

158000330

158000331

158000332

158000333

158000334

158000335

158000336

158000337

158000338

158000339

158000340

158000341

158000342

158000343

158000344

158000345

178000746

178000747

178000748

178000749

178000750

178000751

178000752

178000753

178000754

178000755

178000756

178000757

178000758

178000759

178000760

178000761

178000762

178000763

178000764

178000765

178000766

178000767

178000768

178000769

178000770

178000771

178000772

178000773

178000774

178000775

208000206

208000207

208000208

208000209

208000210

208000211

208000212

208000213

208000215

208000216

208000218

208000219

208000220

208000221

208000222

208000223

208000224

208000225

208000226

208000227

208000228

208000229

208000230

208000231

208000232

208000233

208000234

208000235

208000236

208000237

208000238

208000239

208000240

208000241

208000242

208000243

208000244

208000245

208000246

208000247

208000248

208000249

208000250

208000251

208000252

208000253

208000254

208000255

208000256

208000257

208000258

208000259

208000260

208000261

208000262

208000263

208000264

208000265

news-1701