Um höfundinn
Eiríkur Rögnvaldsson

Eiríkur Rögnvaldsson

Eiríkur Rögnvaldsson er prófessor emeritus í íslenskri málfræði. Undanfarin ár hefur hann einkum fengist við máltækni en hefur einnig stundað rannsóknir í samtímalegri og sögulegri setningafræði, svo og orðhlutafræði og hljóðkerfisfræði. Sjá nánar

Ég geri ráð fyrir því að flestir lesendur hafi einhvern tíma hringt í þjónustuver, t.d. hjá símafyrirtæki, þar sem þeim er boðið að velja milli nokkurra kosta með því að ýta á mismunandi takka á símanum – 1 fyrir sölu áskrifta, 2 fyrir reikninga, 3 fyrir tæknilega aðstoð, o.s.frv. Stundum eru möguleikarnir svo margir að notandinn tapar þræðinum og man ekki að upptalningu lokinni fyrir hvað 1 stóð eða hvernig átti að velja tæknilega aðstoð. Þegar notandanum hefur svo tekist að velja rétta kostinn er eins víst að hann sé númer 29 í röðinni og þurfi að bíða óratíma eftir að fá svar við fyrirspurn sem jafnvel væri hægt að svara með einu orði eða einni setningu.

En þetta þarf ekki að vera svona. Í mörgum þjónustuverum erlendis þarf ekki að bíða eftir því að þjónustufulltrúi losni, heldur er það tölva sem hlustar á erindi notandans og greinir merkingu þess. Sú greining er síðan send til gagnabanka þar sem er að finna svör við margvíslegum fyrirspurnum, og viðeigandi svar sótt í bankann. Því svari er svo breytt í eðlilega setningu og hún send til tölvubúnaðar sem les hana fyrir notandann. Hugsanlega er svarið fullnægjandi þannig að notandinn geti þakkað fyrir sig og kvatt, en að öðrum kosti spyr hann áfram og sama ferlið endurtekur sig – spurningin er greind, svar sótt í gagnabanka o.s.frv.

Tölvan getur annað miklum fjölda fyrirspurna í einu þannig að biðtími nánast hverfur. Vissulega eru fyrirspurnir stundum of flóknar til að hægt sé að afgreiða þær á þann hátt, og þá á notandinn þess alltaf kost að biðja um samband við mennskan þjónustufulltrúa – eða tölvan gefur samband við þjónustufulltrúa ef hún skilur ekki fyrirspurnina eða getur ekki svarað henni. Þjónustuver af þessu tagi eru þó ekki til á Íslandi – ekki enn a.m.k. Forsenda þeirra er nefnilega flókin málfræðileg greining og þróaður hugbúnaður sem talsvert vantar á að til sé fyrir íslensku. En um þessar mundir er þó verið að stíga tvö mikilvæg skref í átt til slíks búnaðar.

Annars vegar er unnið að nýjum íslenskum talgervli á vegum Blindrafélagsins, en talgervill er hugbúnaður sem les upp ritaðan texta. Það er pólska fyrirtækið IVONA sem býr talgervilinn til með málfræðilegri og tæknilegri aðstoð fræðimanna frá Máltæknisetri (Háskóla Íslands og Háskólanum í Reykjavík). IVONA hefur á undanförnum árum gert talgervla fyrir allmörg tungumál og þeir hafa komið mjög vel út í samanburði við talgervla stórfyrirtækja á borð við Microsoft, Nuance, Loquendo, Acapela o.fl. Nýi talgervillinn mun búa yfir bæði karlrödd og kvenrödd, ólíkt eldri íslenskum talgervlum sem aðeins hafa talað einni röddu.

Í vor var gert mállíkan fyrir talgervilinn, með upplýsingum um íslensk málhljóð, hljóðasambönd og ýmis sérkenni tungumálsins. Upptökur beggja raddanna fóru fram síðsumars og síðan hefur IVONA unnið að því út frá mállíkaninu að matreiða þessar upptökur og búa til talgervil. Tilraunaútgáfa talgervilsins lofar mjög góðu en hún verður kynnt á degi íslenskrar tungu, 16. nóvember. Þá taka við umfangsmikil hlustunarpróf þar sem gæði talgervilsins verða metin og bent á galla sem þarf að bæta úr. Þeir geta verið margvíslegir – í framburði einstakra hljóða og hljóðasambanda, í tónfalli, í lestri úr tölum og skammstöfunum, o.fl. Endanleg verklok hafa ekki verið tímasett, en vonast er til að fullbúinn talgervill komi á markað vorið 2012.

Hitt verkefnið sem nú er unnið að nefnist Almannarómur og felst í söfnun raddsýna til að nota við gerð íslensks talgreinis, en talgreinir er hugbúnaður sem greinir og túlkar tal, ýmist í samhengi eða stök orð. Að verkefninu standa Háskólinn í Reykjavík og Máltæknisetur, í samvinnu við rannsóknardeild Google. Raddsýnin eru tekin upp á Android-snjallsíma og er ætlunin að taka upp tal allt að 200 Íslendinga, um 500 yrðingar frá hverjum – fólki af báðum kynjum og á ýmsum aldri. Upptökurnar verða settar á vef Google og þannig aðgengilegar öllum sem vilja nýta þær til rannsókna eða til þróunar máltæknibúnaðar.

Google Maps skilur þegar talað er við það.

Google vinnur að því að setja talviðmót á leitarvél sína, þannig að menn geti lesið leitarfyrirspurn í hljóðnema í stað þess að slá hana inn á lyklaborðið. Slíkt viðmót er reyndar þegar komið á sumar leitarsíður Google, t.d. á ensku aðalsíðuna (google.com) og kortavefinn (maps.google.com). Þar er táknmynd hljóðnema aftast í leitarlínunni og sé smellt á hana getur notandinn borið fram fyrirspurn sína í töluðu máli – að því tilskildu að hljóðnemi sé tengdur við tölvuna. Þróunin á þessu sviði er mjög ör um þessar mundir og má þar t.d. benda á Siri-hugbúnaðinn í iPhone-símum. Með því efni sem Almannarómur safnar er kominn grundvöllur að þróun nýs íslensks talgreinis, þótt enn sé óvíst hvenær hann verður tilbúinn.

Þótt þessi tvö verkefni skili þeim árangri sem vonast er til þýðir það ekki að við getum þar með farið að ræða við tölvurnar á íslensku. Það þarf einnig að greina setningagerð þess sem notandinn segir til að átta sig á merkingunni og tölvan þarf því að kunna reglur um íslenska setningagreiningu; hún þarf að hafa aðgang að góðu orðasafni til að geta flett einstökum orðum upp; og búa yfir að viðamiklum gagnabanka þar sem spurningar og svör eru tengd saman, svo og reglum sem gera henni kleift að orða svörin á eðlilegri íslensku. En nýr íslenskur talgervill og talgreinir ættu samt að skila okkur talsverðan spöl í rétta átt.


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

news-0812

yakinjp


sabung ayam online

yakinjp

yakinjp

yakinjp

rtp yakinjp

yakinjp

yakinjp

yakinjp

yakinjp

yakinjp

yakinjp

yakinjp

yakinjp

yakinjp

judi bola online

slot thailand

yakinjp

yakinjp

yakinjp

yakinjp

yakinjp

ayowin

mahjong ways

judi bola online

mahjong ways 2

10031

10032

10033

10034

10035

10036

10037

10038

10039

10040

10041

10042

10043

10044

10045

10101

10102

10103

10104

10105

10106

10107

10108

10109

10110

10221

10222

10223

10224

10225

10226

10227

10228

10229

10230

11000

11001

11002

11003

11004

11005

11006

11007

11008

11009

10111

10112

10113

10114

10115

10231

10232

10233

10234

10235

10236

10237

10238

10239

10240

11010

11011

11012

11013

11014

11015

11016

11017

11018

11019

10046

10047

10048

10049

10050

10051

10052

10053

10054

10055

10056

10057

10058

10059

10060

10116

10117

10118

10119

10120

10121

10122

10123

10124

10125

10126

10127

10128

10129

10130

10206

10207

10208

10209

10210

10211

10212

10213

10214

10215

10216

10217

10218

10219

10220

11020

11021

11022

11023

11024

11025

11026

11027

11028

11029

11030

11031

11032

11033

11034

9041

9042

9043

9044

9045

10061

10062

10063

10064

10065

10066

10067

10068

10069

10070

10131

10132

10133

10134

10135

10136

10137

10138

10139

10140

10196

10197

10198

10199

10200

10201

10202

10203

10204

10205

11035

11036

11037

11038

11039

11040

11041

11042

11043

11044

10011

10012

10013

10014

10015

10016

10017

10018

10019

10020

10021

10022

10023

10024

10025

10026

10027

10028

10029

10030

10141

10142

10143

10144

10145

10146

10147

10148

10149

10150

10181

10182

10183

10184

10185

10186

10187

10188

10189

10190

10191

10192

10193

10194

10195

11045

11046

11047

11048

11049

11050

11051

11052

11053

11054

11055

11056

11057

11058

11059

10071

10072

10073

10074

10075

10076

10077

10078

10079

10080

10081

10082

10083

10084

10085

10151

10152

10153

10154

10155

10156

10157

10158

10159

10160

10161

10162

10163

10164

10165

10166

10167

10168

10169

10170

10171

10172

10173

10174

10175

10176

10177

10178

10179

10180

11060

11061

11062

11063

11064

11065

11066

11067

11068

11069

11070

11071

11072

11073

11074

10086

10087

10088

10089

10090

10091

10092

10093

10094

10095

10096

10097

10098

10099

10100

news-0812