Rakendusjuhend

Hääldussõnastiku täpsem nimetus oleks transkriptsioonisõnastik. Kuivõrd see on loodud kasutamiseks koos eestikeelse kõnesünteesiga, siis eesmärk pole mitte täpselt edasi anda, kuidas võõrnime originaalkeeles hääldada, vaid kuidas see ümber kirjutada eesti tähestiku tähtedega nii, et välja loetuna võiks tulemus vastata kirjeldusele "nii eestlane seda nime ütleks". 'New' hääldusväljal on 'Njuu', 'York' taga 'Jork', mitte 'jɔːk'. Sõnastik täieneb pidevalt sünteesi saadetud tekstidest pärit tundmatute sõnade arvelt. Hetkel on sõnastiku maht ~360000 kirjet, päevas lisandub keskmiselt paarkümmend.

vormid

Mõttetu oleks võõrnime jaoks kirja panna ükssama nimi kõigis käänetes, igaühe taga vastav hääldus. Seetõttu peab rakendaja ise hoolitsema tekstis vormide tuvastamise eest. Tekstisõne 'Yorki' tuleks esmalt üritada leida tervikuna, selle puudumisel üritada tuvastada tüve. 'i' on võimalik käändelõpp, selle ees 'k' (või muu kaashäälik) sobiv kontekst, York leidub sõnastikus -- järelikult võib Yorki häälduse moodustada tüve häälduse 'Jork' ja eraldatud käändelõpu 'i' liitmisel. Seetõttu leidub sõnastikus ka selliseid tüvesid nagu 'newyorklas', mille omastav kääne on tüvi+e, ainsuse osastav tüvi+t ja mitmuse osastav tüvi+i.

märgid

Võõrnimed võivad sisaldada "kõike". Põhimõtteliselt iga tekstisõne, mida ei saa üksüheselt ette lugeda, võib sattuda sõnastikku. Lubatud on kogu Unicode'i märgistik. Tüüpilisemate kasutusjuhtude jaoks võiks rakendus osata vähemalt Unicode'i NFD -> sammuta diakriitikute kustutamine tehet nende ladina kirja märkide jaoks, millel tundmatud diakriitilised märgid. Lisaks on aeg-ajalt üritatud märkida rõhulist silpi apostroofiga silbi või silbi vokaali ees (Metro'politan). Kuivõrd rakendusena peetakse silmas kõnesünteesi, siis suur- ja väiketähtede eristus hääldusväljal ei mängi rolli. YORK ja york on samaväärsed. Küll aga peab rakendus silmas pidama, et diakriitilised märgid ja register eristavad tüvesid sõna väljal. Esmalt tuleks kontrollida täpset vastavust ja alles siis lihtsustatud kuju. 'OLE', 'Ole' ja 'Olè' häälduvad erinevalt.

muud väljad

Veebilehel esitatakse sõnastikku tabelina, mille veergudes vastavalt ID, Sõna, Sagedus, UID, Keel, Reegel, Hääldus ja kuulamisikoon. ID ja sõna vastavus ei ole garanteeritud -- sõna võib muutuda. Samuti pole tagatud Sõna unikaalsus, sama tüvi võib esineda mitu korda, kas siis eri keeltes või lihtsalt kogemata. Sagedus loendab sellise tüve esinemist tekstides, mõistagi on tegemist lihtsalt umbmäärase hinnangu ja mitte täpse tekstikorpuste analüüsi tulemusega. UID pole välise rakenduse seisukohast oluline. Laias laastus 1 ja 3 on pigem ajalehetekstidest, 4 ja 5 subtiitrifailidest ning suuremad numbrid juba kasutajate e-raamatutest pärit sõnadel. Reeglis märgib

1 - häälda nagu kirjutatud (tähendudes 'on üle vaadatud ja, jah, on küll selline')
2 - veeri eestipäraselt (NBA on 'enn bee aa')
3 - loe nagu on (ABBA on 'abba')
4 - veeri inglispäraselt (NBC on 'enn bii sii')
9 - kirjaviga, hääldusväljal on õige kuju (rakendus peaks võtma selle ja uuesti proovima)

Keele väljal on ISO kahetäheline keelekood. Esindatud on vaid üksikud suuremad-sagedasemad keeled. Kui rakendus ise keelte üle otsustada ei taha, siis valige järjekorras esmalt ilma keelemärgendita hääldus, see on universaalne üldiselt sobiv variant, selle puudumisel on juba maitse asi, kas eelistada märgendiga 'et' (eestikeelne), märgendiga 'en' (ingliskeelne) või hoopis seda hääldust, mille sagedus on suurim.

varia

Inglise nimede puhul on eeldatud, et [lmnr] sõna lõpus jääb hääldusesse ja Tower on 'Tauer', mitte 'taʊ.ɚ'. Küsimus polegi nii väheoluline. Kui sõnastikus oleks originaalile lähendasem 'Tauö', aga tõlgi jaoks on hääldus tauör, siis vastavalt ta ka käänab omastvas Toweri. Selle hääldus moodustuks 'Tauöi' (tüvi+i), mis kõnesünteesi esituses jätaks mulje, et ka arvuti võib purjus olla.

allalaadimine

Nupp 'Ekspordi' laadib mõningase mõtlemise peale teie arvutisse kogu sõnastiku CSV formaadis. Mõistlikum võib olla enne eksprti Täppisotsinguga piirata sagedust (näiteks sagedus suurem-kui 5) ja sobivamalt sortida. Kakskümmend tuhat on oluliselt mugavam hallata kui 350000. Sõnastiku materjali kasutamiseks pole piiranguid, lube ja litsentse ei nõuta.