Alimlər süni intellektin əsas zəifliyini aşkar ediblər

12:05

Bəyəndim (1) Bəyənmədim (0)

Beynəlxalq tədqiqat qrupu aparıcı dil modellərini konsentrasiyanı ölçmək üçün klassik psixoloji alət olan Strup testindən istifadə edərək sınaqdan keçirib. Nəticələr gözlənilməz olub: tapşırıq nə qədər uzun olarsa, süni intellekt bir o qədər pis nəticə göstərir – demək olar ki, tamamilə imtina edənə qədər. Oxuməni.az xəbər verir ki, tədqiqat “PNAS Nexus” jurnalında dərc olunub.

Strup testi belədir: iştirakçıya rəngli mürəkkəblə yazılmış söz-rənglər göstərilir və sözün özünü nəzərə almadan mürəkkəbin rəngini söyləmək tələb olunur. Məsələn, "qırmızı" sözü mavi rəngdə yazılmışsa, cavab "mavi" olmalıdır. İnsanlar uzun siyahılarda belə bu testlə sabit şəkildə bacarırlar – beyin avtomatik reaksiyanı yatıra bilir.

Suketu Patelin rəhbərlik etdiyi alimlər bu testi GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 və Gemini 2.5 modellərinə təqdim ediblər. Qısa siyahılarda (5 söz) bütün sistemlər yaxşı işləyib. Uzunluq artdıqca dəqiqlik kəskin şəkildə düşüb: GPT-4o 5 sözdə 91% düzgün cavab, 10 sözdə artıq 57%, 40 sözdə isə cəmi 15% cavab verib. Claude 3.5 20 sözə qədər dayanıqlı qalıb, sonra isə 24%-ə düşüb.

Müəlliflərin fikrincə, modellər təlimatı "unudurlar" və ən güclü şəkildə öyrəndiklərinə – sözləri oxumağa qayıdırlar. Bu, onları sabit, könüllü diqqəti saxlaya bilən insanlardan prinsipial olaraq fərqləndirir.

Almaz Həsənli