Yapay zeka dünyasında işler her zaman göründüğü gibi olmayabilir. Devasa boyutları, karmaşık eğitim prosedürleri, öngörülemeyen davranışları ve yanıltıcı yorumlanabilirlikleri nedeniyle, büyük dil modellerinin (LLM’ler) iç işleyişi bir gizem olmaya devam ediyor.
MIT’nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’ndan (CSAIL) araştırmacılar yakın zamanda “LLM”lerin çeşitli görevlerdeki performansını araştırmak için bir çalışma yürüttüler. Bulguları ezberleme ve muhakeme yetenekleri arasındaki ilişkiye ışık tutuyor. Genellikle bilişsel yeteneklerinin sıklıkla abartıldığı bulundu.
GPT-4 ve Claude gibi yapay zeka modellerinin üzerine çalışmalar gerçekleştirildi.
Bu modellerin eğitim ve test için kullanılan “varsayılan görevleri” ve varsayılan ayarlardan farklı olan varsayımsal durumlar olan “karşı olgusal senaryoları” da ele alması gerekir.
Araştırmacılar, yepyeni görevler oluşturmak yerine önceden var olan görevleri değiştirerek, modelleri konfor alanlarının ötesine iten değerlendirmeler oluşturabildiler.
Modelleri matematik, satranç, kod değerlendirme, mantıksal soruları yanıtlama ve daha fazlasını içeren geniş bir görev yelpazesinde, çok çeşitli veri setleri ve ölçütler kullanarak test ettiler.
Dil modelleri için en yaygın taban olan 10 tabanı, genellikle kullanıcılar tarafından gerçekleştirilen tüm aritmetik işlemler için kullanılır. Ancak, sadece 10 tabanında iyi performans gösterdikleri için çok yetkin olduklarını varsaymak hata olur. Gerçekten iyi toplama becerilerine sahiplerse, hesap makineleri veya bilgisayarlar gibi, tüm sayı tabanlarında tutarlı bir şekilde iyi performans göstermeleri gerekir.
Çalışma birçok kişinin şüphelendiği bir şeyi doğruladı: bu modeller ilk göründükleri kadar sağlam değiller. Genelleştirilebilir toplama becerisi eksikliği, sık görev varyantlarıyla sınırlı olan beklenmedik karşı olgusal bağlamlarda sürekli olarak düşük performans göstermelerinde görülmektedir.
Taşların başlangıç yerlerinin hafifçe değiştirildiği satranç sorunları, uzamsal düşünme ve müzikal akor parmaklama, modelin geçerli olduğu etkinliklere örnektir.
Modeller, yeterli zaman verildiğinde yeni koşullarda hareketlerin yasallığını tespit edebilmesi gereken insan oyuncuların aksine, yeni bağlamlara genellenebilirliğin zayıf olduğunu gösteren rastgele tahminlerden daha iyi performans gösterememiştir. Ayrıca, standart görev başarılarının genel görev yeteneklerinden ziyade eğitim verilerinin aşırı uyumu veya ezberlenmesinden kaynaklanması oldukça muhtemeldir.
“Büyük dil modellerinin şaşırtıcı bir unsuru bize gösterildi: iyi aşınmış bir yol gibi tanıdık ortamlarda olağanüstü iyi performans gösteriyorlar, ancak tanıdık olmayan araziyle karşılaştıklarında önemli zorluklar yaşıyorlar.
MIT’de elektrik mühendisliği ve bilgisayar bilimleri alanında doktora öğrencisi olan Zhaofeng Wu, aynı zamanda CSAIL’in bir üyesi ve çalışmanın yazarıdır. Bu modelleri daha uyarlanabilir hale getirmek ve uygulama sınırlarını genişletmek istedikleri için bu keşfin hayati önem taşıdığına inanıyor.
Yapay zeka kültürümüzde daha yaygın hale geldikçe, tanıdık olsun ya da olmasın, çeşitli olayları güvenilir bir şekilde ele almak giderek daha önemli hale geliyor. Bu bulguların gelecekte daha dirençli LLM’lerin geliştirilmesine rehberlik edeceğini umuyoruz.
Bazı faydalı çıkarımlar olsa da, bazı kısıtlamalar da var. Daha çeşitli test koşullarına ihtiyaç duyulmaktadır, çünkü çalışma sadece belirli faaliyet ve durumları incelemiştir ve bu da modellerin gerçek dünya uygulamalarında karşılaşabileceği tüm olası sorunları temsil etmemektedir.
Faaliyetlerin ve karşı olgusal senaryoların sayısının artırılması, daha fazla olası kusuru tespit etmek için gelecekteki çabaların bir parçası olabilir. Bu, daha karmaşık ve nadir durumların araştırılmasını gerektirebilir. Grup ayrıca, modellerin karar verme prosedürlerinin altında yatan mantığı açıklamak için araçlar geliştirerek yorumlanabilirliği artırmayı hedefliyor.
Illinois Üniversitesi’nden Hao Peng, dil modellerinin ölçeği büyüdükçe, özel modeller bir yana, açık modeller tarafından bile kullanılan eğitim verilerini anlamanın giderek zorlaştığına inanıyor.
Bu modellerin gerçekten bilinmeyen görevlere genelleme yapıp yapmadığı ya da yalnızca eğitim verilerini ezberlemeyi başarıp başaramadığı sorusu, alanı şaşırtmaya devam ediyor. Bu çalışmada bu sorunun yanıtlanmasında önemli bir ilerleme kaydedilmiştir. Son teknoloji LLM’lerin yeteneklerine yeni bir ışık tutmak için, titizlikle planlanmış bir dizi karşı olgusal değerlendirme oluşturuyor.
Görünmeyen faaliyetleri gerçekleştirmenin onlar için çoğu insanın düşündüğünden çok daha zor olabileceği ortaya çıkıyor. Bu durum, mevcut modellerin eksikliklerinin nedenlerine ve daha etkili alternatiflerin yaratılmasına yönelik yeni araştırma alanlarını tetikleyebilir.
Kaynak: Techxplore

