Yapay zeka (YZ), müşteri desteği için kullanılan sohbet robotlarından hastalık bulaşmasını tahmin eden teknolojilere kadar her yerde bulunmaktadır. Bununla birlikte, büyük dil modelleri (LLM’ler) gibi çağdaş YZ modellerini çalıştırmak için gerekli hesaplama gücü ve enerji, onları maliyetli, ulaşılamaz ve çevresel olarak külfetli hale getirebilir. Rice Üniversitesi’ndeki bir grup araştırmacı bu sorunu çözmek için yöntemler geliştiriyor.
Araştırmacı Shrivastava, “Üretken yapay zeka, kapsamlı entegrasyon açısından yeni yeni ortaya çıkıyor” dedi. “Bu teknolojinin tam potansiyelini gerçekleştirmeden önce kaydetmemiz gereken önemli bir ilerleme var.”
Shrivastava, etkili yapay zeka entegrasyonunun, firmaların ve kuruluşların, son derece uzmanlaşmış işlevleri yerine getirmek için veri altyapılarını güvenli bir şekilde kullanabilen sofistike yapay zeka sistemlerine erişime sahip olmalarını gerektirdiğini açıkladı.
Shrivastava, bir YZ’nin fizik zorluklarını etkili bir şekilde ele almak için fizikçiler tarafından geliştirilmesi gerektiğini ve benzer şekilde, tıbbi sorunları ele alan bir YZ’nin tıp uzmanları tarafından inşa edilmesi gerektiğini belirtti.
LLM’leri sıfırdan inşa etmek emek, enerji ve veri açısından önemli bir girişimdir. Tipik olarak, veri güvenliğini sağlarken bağlama özgü ortamlarda LLM’leri uygulamak için tek uygun alternatif mevcut modelleri uyarlamaktır.
Shrivastava ve araştırma grubunun birçok üyesi, Aralık 2024’te Vancouver, British Columbia’da düzenlenen en yeni yapay zeka konferansı Neural Information Processing Systems’da (NeurIPS) kullanıcıların beklentilerini daha iyi karşılamak için LLM’leri optimize etme konusundaki üç yeni gelişmeyi sergiledi.
Bu üç yayın, Rice’taki yapay zeka araştırmalarının yenilikçi potansiyelini ve etkisini ortaya koyarak, düşük rütbeli yaklaşımlar ve geleneksel niceleme gibi yaygın metodolojilere gelişmiş alternatifler sunuyor.
Büyük Dil Modelleri (LLM’ler), dilsel verilerden bilgi edinen ve bunları analiz eden sinir ağı mimarileridir. Bu algoritmalar, girdinin (örneğin bir ChatGPT komut istemi) çıktıya (örneğin bir e-posta taslağı) dönüştürülmesini belirleyen parametrelere veya değişkenlere sahiptir.
LLM’deki “büyük” terimi, son on yılda modellerin artan sayıda parametre ve veri ile artırılması eğilimini ifade eder, çünkü bu gelişmiş zeka ile ilişkilidir. Bu durum, modelleri eğitmek ve dağıtmak için gereken hesaplama gücü ve bellekte önemli bir artışa yol açarak LLM’lerin önemli bellek ve enerji taleplerine neden olmuştur.
Rice ekibi tarafından NeurIPS’te sunulan bir makale, Shrivastava tarafından “parametre paylaşımı” olarak adlandırılan bir kavramı inceliyor ve yapay zeka modellerinin tahminler ve kararlar için kullandığı ağırlık matrisleri veya çalışma belleği olarak bilinen kapsamlı sayısal tabloları yönetmeye yönelik bir teknik olan Eskiz Yapılandırılmış Dönüşümleri (SS1) tanıtıyor.
SS1, olasılıksal algoritmaların temel bir kavramı olan parametre paylaşımını kullanarak modelin ifade gücünü ve kesinliğini korurken bellek ve hesaplama gereksinimlerini azaltıyor. Örneğin, önde gelen LLM’lerde uygulandığında, SS1 yaklaşımı daha fazla ince ayar gerektirmeden işlem hızlarını %11’den fazla artırmıştır.
Şu anda, LLM’ler ve daha genel olarak temel modeller, gerekli milyonlarca hesaplamayı yapmak için GPU’lar (grafik işlem birimleri) olarak bilinen maliyetli, enerji yoğun makinelere bağımlıdır. Bu durum, temel modellerin genellikle büyük teknoloji firmaları tarafından işletilen veri merkezleriyle sınırlı olduğunu ya da bireylerin veya daha küçük kuruluşların çoğunluğunun erişemeyeceği maliyetli donanımlar gerektirdiğini göstermektedir.
Shrivastava’nın ekibi, büyük dil modellerinin (LLM’ler) grafik işlem birimleri (GPU’lar) yerine geleneksel bilgisayar işlemcileri (CPU’lar) üzerinde verimli bir şekilde çalışmasını sağlayan bir algoritma oluşturdu. NeurIPS’de yayınlanan bir sonraki makalede ayrıntılı olarak açıklanan bu araştırma, hesaplama süreçlerini yeniden yapılandırmak için CPU’ların doğal donanım özelliklerini kullanıyor: NoMAD Attention algoritması, daha yüksek hız ve daha az kaynak tüketimi elde etmek için CPU’ların bellek mimarisinin bir özelliğinden yararlanarak karmaşık görevleri zekice bir alternatifle değiştiriyor.
Rice Üniversitesi’nde doktora adayı olan ve Shrivastava’nın araştırma grubuna bağlı olarak NeurIPS’te sunulan iki makalenin birincil yazarı olan Tianyi Zhang, “Algoritmamız, doğruluktan ödün vermeden performansı iki kat artırıyor” dedi.
Bu ilerleme, öngörülebilir gelecekte sofistike YZ araçlarının sadece bulut üzerinde değil, doğrudan mobil cihazlarda veya dizüstü bilgisayarlarda da çalışabileceğini gösteriyor.
Bu ilerleme, öngörülebilir gelecekte sofistike YZ araçlarının sadece bulut üzerinde değil, aynı zamanda doğrudan mobil cihazlarda veya dizüstü bilgisayarlarda da çalışabileceğini göstermektedir.
YZ araştırmacılarının karşılaştığı bir diğer zorluk da bağlamsal belleğin yönetimidir. Büyük YZ modelleri, yalnızca güçlü işlemcilere değil, aynı zamanda “düşüncelerini” korumak için önemli miktarlarda yüksek hızlı belleğe de ihtiyaç duymaktadır. Örneğin, ChatGPT gibi LLM’ler, bir tartışma boyunca karşılaşılan her türlü bilginin geçici bir “not defterini” tutar. “Anahtar-değer” ya da “KV-önbellek” olarak adlandırılan bu bellek, diyalog ilerledikçe genişleyerek en sofistike bilgisayarları bile hızla yorar.
Üçüncü bir makalede ekip, modelin yanıtlarının kalitesini korurken belleği azaltmaya yönelik bir teknik olan “birleştirilmiş niceleme ”yi sundu. Geleneksel teknikler ayrı bilgi parçalarını sıkıştırır; ancak Shrivastava’nın ekibi bu metodolojinin çok önemli bir hususu gözden kaçırdığını fark etti: çeşitli bellek bileşenleri arasındaki ara bağlantı. Geliştirdikleri strateji, bağlantılı bileşenleri birleştirerek önemli ölçüde artırılmış verimlilik elde ediyor.
Zhang, “Modelin etkinliğini korurken belleği veri birimi başına yalnızca bir bite (aslında minimum boyuta) indirebileceğimizi keşfettik” dedi. “Bildiğim kadarıyla bunu ilk başaran biziz.”
Shrivastava’nın çalışması yapay zekanın geleceğine yönelik kapsamlı bir vizyonu temsil ediyor; sofistike yapay zekaya yalnızca teknoloji holdingleri değil, herkes erişebiliyor.
Kaynak: techxplore.com/news/2025-02-scientists-solutions-ai-efficient-customizable.html

