The lexicographic potential of artificial intelligence: a case study of English loanwords in the Croatian language

Katica Balenović; Jakov Proroković

doi:10.33604/sl.19.36.3

Leksikografski potencijal umjetne inteligencije na primjeru engleskih posuđenica u hrvatskom jeziku

Autor(i)

Katica Balenović Sveučilište u Zadru
Jakov Proroković Sveučilište u Zadru

DOI:

https://doi.org/10.33604/sl.19.36.3

Ključne riječi:

ChatGPT, leksikografija u kontekstu jezičnog kontakta, prekomjerna generalizacija, korpusni uzorak, posuđenice

Sažetak

Pojava generativne umjetne inteligencije (UI) i velikih jezičnih modela (VJM) otvorila je nove mogućnosti u području leksikografije, osobito kada se radi o preciznom definiranju rječničkih natuknica uz istodobno smanjenje utrošenog vremena u usporedbi s tradicionalnijim metodama ili softverskim alatima. Kako bi se ispitali jezični kapaciteti umjetne inteligencije, ovo istraživanje nadilazi izradu jednojezičnih rječnika te istražuje mogućnosti modela ChatGPT u razlikovanju specifičnih značenja posuđenica u kontekstu drugog jezika (J2). Korpusni uzorak ciljanih engleskih posuđenica korišten je za procjenu sposobnosti modela ChatGPT u razlučivanju različitih značenja koja se pojavljuju u hrvatskom jezičnom kontekstu. Rezultati pokazuju da UI pokazuje značajnu razinu preciznosti u definiranju ciljanih riječi, ali i primjetne nedostatke kada odgovara na upite koji se specifično odnose na moguća značenja ili vrste riječi spomenutih riječi (posuđenica) u kontekstu drugog jezika (J2). Točnost modela opada pri obradi manje učestalih posuđenica, pri čemu se često pojavljuje tendencija prekomjernog generaliziranja, odnosno prenošenja značenja iz engleskog (J1) u hrvatski jezik (J2). Također, model nerijetko generira pogrešne primjere upotrebe, predlažući značenja koja nisu potvrđena u jezičnim korpusima. Dobiveni rezultati potvrđuju da model prvenstveno interpretira posuđenice iz perspektive engleskog jezika, neovisno o jeziku na kojem je upit postavljen. Usporedba odgovora UI iz ranog razdoblja 2024. i početka 2025. godine upućuje na poboljšanja u novijoj verziji modela, koja pokazuje preciznije razlučivanje dvosmislenih slučajeva. Međutim, i dalje su prisutne nekonzistentnosti, osobito u korelaciji između učestalosti upotrebe i broja značenja, što se tumači tendencijom modela da ponekad daje prednost generiranju odgovora nauštrb točnosti.

##submission.downloads##

PDF (English)

Objavljeno

2025-06-16

Broj časopisa

Svezak 19 Br. 36 (2025)

Rubrika

Izvorni znanstveni rad

Autorska prava

Autori zadržavaju autorska prava za radove objavljene u časopisu, no svojim pristankom na objavljivanje daju časopisu pravo prvoga objavljivanja u tiskanom te elektroničkom formatu. Radovi objavljeni u časopisu licencirani su pod licencijom Creative Commons: Imenovanje (CC-BY). Uz prikladno navođenje izvora, radovi se smiju umnožavati, distribuirati, priopćavati javnosti i prerađivati te koristiti u znanstvene, obrazovne i druge svrhe, uz obavezno navođenje autorstva i izvora. Pravno objašnjenje licencije dostupno je na: https://creativecommons.org/licenses/by/4.0/legalcode.hr. U slučaju preuzimanja priloga iz drugog izvora autori su sami dužni osigurati dopuštenje te snose odgovornost u slučaju povrede autorskih prava.