AUTOMATICKÉ DOPLŇOVANIE DIAKRITIKY POMOCOU UMELEJ INTELIGENCIE

aby-ste-nestali
Základný tvar slova 'stat' je slovo s najväčším množstvo diakritizovaných variantov. Nájdete všetkých päť? stat
98,5%ÚSPEŠNOSŤ

Diakritikovač je doplnok
pre Google dokumenty

Kvôli pandémii sa presun kancelárskej práce do virtuálneho priestoru výrazne urýchlil. Pre zlepšenie efektivity sme zvyknutí pracovať kolaboratívne a online. Pri písaní v slovenčine niekedy kvôli rýchlosti alebo pohodlnosti píšeme bez diakritiky. Text bez diakritiky je však menej čitateľný, môže spôsobiť nedorozumenia alebo môže pôsobiť neprofesionálne. Diakritikovač pre Google dokumenty je nástroj pre rýchle a automatizované doplňovanie aj odstraňovanie diakritiky v slovenských online dokumentoch založený na algoritmoch umelej inteligencie.

  • POHODLNÝ
    EFEKTÍVNY
    PRAKTICKÝ
  • ETICKÝ & ŠETRNEJŠÍ
  • AI ZALOŽENÁ
    NA NEURÓNOVÝCH
    SIEŤACH

Ako Diakritikovač používať?

1

Získajte a aktivujte si doplnok v Google Workspace Marketplace.
KInIT Diakritikovač je úplne zdarma!

GOOGLE WORKSPACE MARKETPLACE
2

Otvorte v prehliadači akýkoľvek Google dokument.
KInIT Diakritikovač nájdete v pravej bočnej lište.

image1
3

V dokumente označte slovenský text a využitím pravého ovládacieho
panelu diakritikovača v ňom na jeden klik obnovíte diakritiku.

Štýly v označenom texte ostanú zachované.

image2
4

Nezabudnite KInIT Diakritikovač ohodnotiť v Marketplace.
Kedykoľvek nám môžete nám zanechať spätnú väzbu.
Ak si diakritikovač nájde nezanedbateľné množstvo používateľov,
budeme ho ďalej vylepšovať.

Teoretické slovo, ktoré obsahuje všetky typy diakritiky v slovenčine: dĺžeň, mäkčeň, vokáň aj široké e (odvodené od pätôčka). pätôčkové
Čítajte ďalej, ako fungujú naše algoritmy, čo sa deje s vašimi dátami, a prečo je obnova diakritiky okrem pomocného pracovného nástroja aj dôležitá výskumná úloha.

AKO DIAKRITIKOVAČ FUNGUJE?

Súčasná verzia diakritikovača využíva model obojsmernej dvojvrstvovej rekurentnej neurónovej siete, ktorý sme natrénovali na veľkom množstve slovenských textov. Technológia rekurentných neurónových sietí umožňuje zachytiť štatistiku výskytu znakov s diakritikou na základe kontextu vety. Tú využívame na predikciu diakritiky a jej doplnenie (príp. opravu) v jednotlivých slovách. Aj keď tento model nie je najlepší možný z pohľadu presnosti (viac nižšie), je rozumne veľký. Práve jeho kompaktnosť, pri zachovaní dostatočne vysokej miery úspešnosti, znižuje náklady na prevádzku a jeho energetickú spotrebu, na čom nám v KInITe veľmi záleží.

OBNOVA DIAKRITIKY AKO VÝSKUMNÁ ÚLOHA

Úloha doplňovania, presnejšie obnovy diakritiky v texte je jednou z úloh spracovania prirodzeného jazyka (angl. Natural Language Processing, NLP), ktorej sa v KInITe venujeme. Automatizované obnovenie diakritiky môžeme okrem praktického použitia na každodennú prácu s dokumentmi, využiť aj ako medzikrok pre ďalšie spracovanie a analýzu textu, keďže prítomnosť diakritiky v texte môže výrazne ovplyvniť význam textu, a napomôcť jeho lepšiemu porozumeniu v iných úlohách spracovania textu.

Obnove diakritiky pre slovenčinu sa venujú aj mnohí ďalší výskumníci, napr. kolegovia z JÚĽŠ SAV v projekte Diakritik, kolegovia z projektu NLP4SK, výskumníci z ČVUT alebo web brm.sk. Menej riešení je však priamo integrovaných do kancelárskych nástrojov. Jedným z nich je náš Diakritikovač, ale aj komplexnejší LanguageTool pre korektúru textu.

Aby sme vyhodnotili presnosť nášho riešenia, vykonali sme experiment, v ktorom sme na jednotnej testovacej množine porovnali úspešnosť obnovy diakritiky s inými prístupmi. KInIT Diakritikovač dosiahol úspešnosť 98,47% a tesne zaostal za metódou n-gramov od JÚĽŠ SAV s 99,38%, ktorá bola natrénovaná na rádovo väčšom korpuse slovenského textu.

graf

ČO SA DEJE S MOJIMI DÁTAMI?

Pri vývoji Diakritikovača sme vyhodnocovali aj mnohé jeho etické aspekty. Diakritikovač pristupuje len k časti textu, ktorý si pre obnovenie diakritiky sami zvolíte. Okrem obnovenia diakritiky text nikde neukladáme, ďalej nespracúvame ani neodosielame tretím stranám. Opravenú diakritiku v texte však vždy odporúčame skontrolovať, pretože umelá inteligencia nie je dokonalá. Neurónový model diakritikovača bol natrénovaný použitím 2GB slovenského textu, ktoré sú voľne dostupné práve pre výskum tejto úlohy.

Pri vývoji Diakritikovača sme sa snažili ísť aj nad rámec povinnej ochrany údajov. Preto sme sa rozhodli absolvovať jeho posúdenie z pohľadu etiky. Zaoberali sme sa rôznymi otázkami ako sa vyhnúť negatívnym dopadom na používateľov a ich okolie, napríklad s ohľadom na mieru ich vlastnej autonómie či kontrolou nad výsledným textom. Na základe tohto posúdenia sme identifikovali sadu etických rizík a spôsobov ako im čeliť.

Pri spracúvaní vašich osobných údajov maximálne dbáme na bezpečnosť a ich ochranu voči úniku alebo zneužitiu. Doplnok je určený pre obnovu diakritiky najmä v odborných, akademických a literárnych textoch. Sme presvedčení, že užívatelia doplnku Diakritikovač sú skúsení užívatelia internetu a prikladajú ochrane svojho súkromia náležitú pozornosť. Prosím prečítajte si plné znenie našich zásad ochrany osobných údajov.

Najdlhšie známe slovo pozostávajúce len zo znakov
s diakritikou (odvodené od číž).
číží

Ak máte záujem o spoluprácu v oblasti NLP,
neváhajte nás kontaktovať.