Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Issues with different language models #133

Open
Spaskich opened this issue Nov 24, 2021 · 10 comments
Open

Issues with different language models #133

Spaskich opened this issue Nov 24, 2021 · 10 comments

Comments

@Spaskich
Copy link
Contributor

Spaskich commented Nov 24, 2021

Describe the bug
I've been using the 3.0 version of NLP-Cube for a wide array of languages and I've encountered some minor issues. I'll summarize them below.

Additional context

  1. The | indicates the way the parts of speech have been split.
  2. Some of these examples may not be wrong, they could actually turn out to be improvements, but I decided to include them just to be safe.
  3. I've noticed that the SpaceAfter=No is missing and has been replaced by a _. Can this functionality be restored?
  4. I'd also like to ask if it would be possible to train the Ukrainian model for version 3.0, as well.

Czech:
Text: Hlavním cílem zemědělské reformy je odstranění bariér dovozu pro čerstvé agrární produkty a snížení spotřebitelských cen. Pětiletý plán zahrnuje postupné snižování dovozních cel a odstranění omezení na dovoz ovoce, zeleniny a vajec z Evropy. Postupně by tak mělo dojít ke snížení cen a ročním úsporám ve výši 2,7 miliardy šekelů (19 miliard Kč) pro izraelské domácnosti. Reforma rovněž slibuje zvýšení dostupnosti sezónních zemědělských produktů po většinu roku, uvedlo ministerstvo zemědělství.

Original text Old Model New Model
2,7 2 | , | 7 2 | 7
cen cena cen
reformy reforma reform

Greek:
Text: Παράλληλα με τον ετήσιο προϋπολογισμό για το 2022, οι χώρες της ΕΕ θα εξακολουθήσουν να βασίζονται στη στήριξη από το μέσο ανάκαμψης NextGenerationEU και τον μηχανισμό ανάκαμψης και ανθεκτικότητας που βρίσκεται στο επίκεντρό του.

Original text Old Model New Model
στη στήριξη 18 στη 18-19 στη
... 18 σ σε
... 19 το ο
... 19 στήριξη στήριξη 20 στήριξη στήριξη

This syntax is different than the old model. Is this a sought-after effect?

Finnish:
Text: Kasvatuksen ja koulutuksen toimialalle jyvitetään koronaelpymiseen varatusta summasta 24 prosenttia ja kulttuurin ja vapaa-ajan toimialalle 11 prosenttia. Kulttuurin ja vapaa-ajan apulaispormestari Arhinmäki iloitsi siitä, että liikuntapaikkojen ja ulkoilualueiden rakentamiseen ja kehittämiseen saatiin budjetissa 7,5 miljoonaa euroa lisää. Yhteensä näihin investointeihin käytetään ensi vuonna 17,5 miljoonaa. ”Kyse on ihmisten lähipalveluista. Rahalla huolehditaan siitä, että palveluita tulee tasapuolisesti ympäri Helsinkiä”, Arhinmäki sanoi.

Original text Old Model New Model
... miljoonaa euroa lisää. Yhteensä... euroa | lisää | . | Yhteensä euroalisää.Yhteensänäihin

Hungarian:
Text: A koronavírus-járvány általános gazdasági visszaesést eredményezett az Európai Unióban 2020-ban. Az eurozónán kívüli országok gazdasági visszaesése (-4,3 százalék) átlagosan kisebb mértékű volt a tavalyi évben, mint az eurozóna tagországokban (-5,7 százalék) (1. ábra). Hasonló kép rajzolódik ki, ha a visszaesés mértékét a járvány előtt kialakított növekedési várakozásokhoz hasonlítjuk. A 2019 végén rendelkezésre álló várakozásokhoz képest az eurozónán kívüli országok gazdaságaira kevésbé volt negatív hatással a koronavírus-járvány 2020-ban (átlagosan -6,8 százalék), mint az eurozóna tagországok gazdaságaira (átlagosan -7,6 százalék).

Original text Old Model New Model
koronavírus-járvány koronavírus-járvány koronavírs-kíték
-4,3 -4,3 -4, | 3

Russian:
Text: Из изменений главного финансового документа региона следует выделить расходы на социальную политику в связи с ростом численности получателей мер поддержки. Более половины из выделенных 2,1 млрд. рублей пойдут на поддержку семей с детьми. Добавлены деньги на ежемесячные выплаты на детей в возрасте от трех до семи лет и в связи с рождением первого ребенка, на предоставление регионального материнского капитала, на социальную поддержку многодетных семей и другие расходы. Дополнительное финансирование мер социальной поддержки людей старшего поколения и отдельных категорий жителей края составит более 972 млн. рублей. Предусмотрен рост бюджетных ассигнований на региональную доплату к пенсии, субсидии гражданам на оплату жилого помещения и коммунальных услуг, ежемесячные выплаты ветеранам труда, компенсацию расходов по оплате услуг ЖКХ педагогическим работникам и другие статьи.

Original text Old Model New Model
млрд миллиард миллилилилитр
до до д

Slovak:
Text: Brusel 24. novembra (TASR) - Európska komisia (EK) zverejnila v stredu výzvy na predkladanie návrhov v rámci programu Erasmus+ na rok 2022. So zvýšeným rozpočtom na budúci rok, ktorý dosahuje takmer 3,9 miliardy eur, bude Erasmus+ naďalej poskytovať príležitosti na študijné pobyty v zahraničí, stáže, učňovskú prípravu, výmeny zamestnancov a projekty cezhraničnej spolupráce v rôznych oblastiach vzdelávania a odbornej prípravy, mládeže a športu.

Original text Old Model New Model
(TASR) ( | TASR | ) (TASR | )
2022 2022 202230000
3,9 3 | , | 9 3 | ,9
zahraničí zahraničie zahraničičie

Slovenian:
Text: Obveznosti za izplačila plač in prispevkov so se povečale za 11,5 odstotka na 1,21 milijarde evrov. To povišanje je posledica napredovanj in dogovora o plačah, višjega izplačanega regresa, sprostitve izplačil delovne uspešnosti ter dodatkov za delo v rizičnih razmerah. Za 13,2 odstotka so bili v primerjavi s prvimi devetimi meseci lani višji izdatki za blago in storitve, medtem ko je bilo za poplačilo obresti izplačanih 6,7 odstotka manj denarja kot lani v tem času. Nižji izdatki iz tega naslova so posledica operacij državne zakladnice z upravljanjem javnega dolga, pravijo na ministrstvu.
New model doesn't split the sentences.

Turkish:
Text: İstanbul İl Sağlık Müdürlüğü binası önünde yapılan açıklamada şöyle denildi: “Sağlık Bakanlığı’nın 2022 yılı bütçe teklifine baktığımızda şunları görmekteyiz: Metalaşmış, ticarileşmiş tedavi edici hizmetler en büyük paya sahiptir. Ödeneklerin ne kadarının tedavi edici hizmetlere, ne kadarınınsa koruyucu hizmetlere ayrıldığı önemlidir. Bu rakamın 74,5 milyar liralık kısmı (yüzde 64) tedavi edici hizmetlere, buna karşılık 38,7 milyar lirası (yüzde 33) koruyucu hizmetlere ayrılmıştır. Yani sağlıkta ticarileşme ve metalaşmayı savunan anlayış yeni bütçede kaynakların aktarımı kısmında sınıfsallığını göstermektedir. Üstelik koruyucu hizmetlere ayrılan bütçeden pandemi döneminde verdikleri insanüstü çalışma koşullarına ve yüzlercesi hayatını kaybetmesine rağmen sağlık emekçilerinin ücretlerine ayrılan pay 5’te birdir. Pandemi sürecinde de daha net ortaya çıkan tablo koruyucu sağlık hizmetlerine ayrılan payın artırılması gerektiğini ortaya koyarken yine yeterli önem verilmediği ortadadır."

Original text Old Model New Model
denildi denil de
74,5 74,5 74 | ,5
3,9 3 | , | 9 3 | ,9
ayrılmıştır ayrıl ayrıl | tır
@tiberiu44
Copy link
Contributor

Hi @Spaskich ,

Thank you for helping us improve NLPCube. The feedback is really detailed and useful.

Training a 3.0 model for Ukrainian is going to be straight forward, so I'm going to start with that. For the other issues, I will have to run a lot of local tests, in order to see what is causing them.

This is going to take some time. I will keep you updated.

@tiberiu44
Copy link
Contributor

@dumitrescustefan - can you please help with this?

@tiberiu44
Copy link
Contributor

@Spaskich - just a quick update. I didn't have time to look into the issue this week, but I will have some time starting tomorrow.

@tiberiu44
Copy link
Contributor

Hi @Spaskich,

Sorry for the late reply. I just finished uploading the Ukrainian model. I will issue an update for the package regarding the SpaceAfter=no bug, which we're still trying to fix. The other issues will require more works but hopefully we will be able to focus on them soon.

@Spaskich
Copy link
Contributor Author

Thanks for the update and all the work.

@Spaskich
Copy link
Contributor Author

Hi,
I'm writing in this issue, because it's a temporary workaround while the new version is being fixed.
I was trying to run 2 new cubes - Persian and Japanese, but I got the following error:

  File "webserver.py", line 124, in <module>
    lang2cube[lang].load(lang)
  File "/work/NLP-Cube/cube/../cube/api.py", line 66, in load
    model_folder_path = model_store_object.find(lang_code=language_code, version=version, verbose=self._verbose)
  File "/work/NLP-Cube/cube/../cube/io_utils/model_store.py", line 192, in find
    raise Exception("No model version for language ["+lang_code+"] was found in the online repository!")                       
Exception: No model version for language [ja] was found in the online repository!

I tried running a new instance of the English cube as well, but it returned the same error.
I noticed that this url, which, as far as I understand, is the cube repository, returns a 503 error. Is this a known issue?

@tiberiu44
Copy link
Contributor

Hi @Spaskich ,

The issue with the older models is resolved now. We are also retraining the tokenizer for the new models, which should solve most of the problems. Thank you for your patience and for supporting this project.

@Spaskich
Copy link
Contributor Author

Hey, are there any updates on the new models?

@tiberiu44
Copy link
Contributor

Hi @Spaskich . Unfortunately, we don't have any updates, because we are running a little short on man power. If don't know when we will be able to focus on this issue. However, we welcome any contribution to NLP-Cube and if you have the time and resources, maybe you could try training some of the models, until you get satisfactory results. We would be more than happy to help you package the models and assign your contribution for citing, in case people use these languages.

@Spaskich
Copy link
Contributor Author

Spaskich commented Jun 1, 2022

Okay, thanks for the info. Will update the issue if I make any progress.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants