Autodeterminazione

Manifestu d'un Giùvini Sicilianu

Lingua e Dialettu

Diventa poviru e servu,
quannu i paroli non figghianu paroli
e si mancianu tra d'iddi.

A people becomes poor and servile,
when words do not spawn words
and they devour themselves instead.

— Gnazziu Buttitta

Natural Language Processing

neural networks

Sicilian language

papers, presentations and code

Oggi Google Translate pò tradùciri chiù di 100 lingui, ma nun sicilianu. Puru lu Bing Translator di Microsoft e Yandex Translate nun ponnu tradùciri lu sicilianu.

A la me canuscenza, l'unicu prujettu pi criari un tradutturi pi la lingua siciliana era lu tradutturi sicilianu-spagnolu ca criau Uliana Sentsova pi Apertium duranti lu GSoC di 2016.

Li dizziunari ca sviluppau pi tradùciri lu sicilianu sunnu assai diversi di li traduttura statisticali ca sviluppanu Google, Microsoft e Yandex.

Traduzzioni statisticali funziona beni cu para di lingui ca si tradùciunu spissu (comu li lingui ufficiali di l'Unioni europea), però traduzzioni statisticali nun funziona beni quannu picca testi parallelli sunnu dispunìbbili e nun funziona beni cu lingui murfologicamenti ricchi, comu lu sicilianu, picchì un tradutturi statisticali nun havi n'oricchia umana.

Un tradutturi statisticali nun senti la sumigghianza tra "mèttiri" e "mìettiri" ca senti l'oricchia umana, quinni lu tradutturi statisticali li ricanùsci comu du' palori diversi, mentri l'oricchia umana li ricanùsci comu du' varianti di la stissa palora. Si avìssimu abbastanza testi parallelli, putìssimu nzignari lu tradutturi statisticali a ricanùsciri dda sumiggianza, ma abbastanza testi parallelli nun ci l'havi lu sicilianu.

Chiddu ca lu sicilianu havi in abbunnanza sunnu genti ca amanu la lingua siciliana.

Arthur Dieli reggistrau chiù di 12.000 palori e frasi siciliani. Giuseppe Presicce reggistrau chiù di 8.000 palori di lu dialettu salentinu comu si parra a Scurranu. Orlando Accetta reggistrau chiù di 1.000 palori di lu dialettu comu si parra a Pizzu Calabbru. E lu prujettu Wikizziunariu sicilianu reggistrau chiù di 18.000.

Quinni havi sensu mettiri li so dizziunari a la basi d'un tradutturi basatu di règuli – comu chiddu ca sviluppau Uliana Sentsova pi Apertium – picchì li traduttura basati di règuli nun hannu bisognu di testi parallelli. Hannu bisognu sulu di dizziunari.

Juncennu nzèmmula li so òpiri putemu sviluppari un tradutturi miccànicu pi la lingua siciliana. E cuminciari a tradùciri documenti in sicilianu.

Lu tradutturi ca sviluppamu nun traduci ngrisi in sicilianu accussì beni comu Google traduci ngrisi in talianu, ma chistu nun è lu paraggiu pertinenti. Lu paraggiu pertinenti è la qualità di lu nostru tradutturi in rispettu a chiddu dispunìbbili ora. E ora nun c'è nenti dispunìbbili.

La mancanza di strumenti pi tradùciri documenti in sicilianu mpidisci la criscenza di la lingua siciliana. Mentri l'abbunnanza di strumenti pi tradùciri documenti in ngrisi e talianu aiuta la criscenza di sti lingui. Eccu picchì  (a lu 18 maju 2018)  Wikipedia ngrisi havi 5.651.597 artìculi, Wikipedia taliana ni havi 1.437.899 e Wikipedia siciliana ni havi sulu 25.990.

When English words do not spawn Sicilian words,
not even Sicilian words will spawn Sicilian words.

Quannu palori ngrisi non figghianu palori siciliani,
mancu palori siciliani figghianu palori siciliani.

La lingua siciliana havi bedda puisìa, però na lingua nun campa sulu di puisìa. Pi sviluppari la lingua siciliana avemu a sviluppari strumenti pi tradùciri documenti in sicilianu.

L'ingrisi è na lingua di studiu picchì documenti vèninu tradotti in ngrisi. Pi sviluppari lu sicilianu comu na lingua di studiu, avemu a tradùciri documenti in sicilianu. Lu sviluppu dû sicilianu comu na lingua di studiu duna a tutti assai mutivi pi mparari la lingua siciliana.

Pi cuminciari avemu bisognu d'un tradutturi miccànicu. Nun havi a essiri un bon tradutturi. Li so risultati ponnu essiri chini di erruri. Si currìggiri ddi erruri cunsuma menu tempu di na traduzzioni chinamenti umana, lu tradutturi miccànicu arriduci lu custu di traduzzioni.

Suppunemu ca lu nostru tradutturi miccànicu arriduci 80 percentu di lu travagghiu d'un tradutturi umanu, accussì un documentu ca in precedenza richiedeva cincu uri di traduzzioni ora richiedi sulu una. Li nostri traduttura umani ora ponnu tradùciri cincu voti chiù documenti ca in precedenza.

Àutri cosi essennu uguali, lu costu ridduttu di criari documenti in sicilianu auminta lu nùmmiru di documenti pubblicati in sicilianu.

When English words spawn Sicilian words,
Sicilian words will spawn English words.

Quannu palori ngrisi figghianu palori siciliani,
puru palori siciliani figghianu palori ngrisi.

Wikipedia furnisci na granni fonti di materiali pi traduzzioni picchì la so CC BY-SA licenza ci pirmetti esplicitamenti a spartiri e modificari l'òpira pi mutivi cummerciali purchì attribuemu l'òpira a li so autora e lassamu àutri a cupiari la nostra òpira. Ncuraggianu spartizzioni e canciamenti pi mutivi cummerciali picchì la genti cuntribbuisci chiù materiali a Wikipedia quannu è lucrusu a sviluppari materiali pi Wikipedia.

Arriducennu li nostri costi, lu sviluppu d'un tradutturi miccànicu ci fa lucrusu tradùciri òpiri in sicilianu. Ci fa lucrusu pubblicari libbri ca li littura vannu a accattari, libbri ca fannu a scialari lu litturi.

E quannu è lucrusu a sviluppari la lingua siciliana, la genti pàrra sicilianu chiù spissu – cu amici, in cummerciu, in scienza e pi puisìa.

Then words will spawn more and more words.

Accussì i palori figghianu sempri chiù palori.


Copyright © 2014-2024 Eryk Wdowiak