Büyük dil modelleri, en temel düzeyde, büyük metin kümeleri üzerinde eğitilen olasılık sistemleridir. Kelimeler ve semboller arasındaki örüntüleri öğrenir, ardından verilen bir bağlama en uygun kelimeler dizisini üretirler.
ChatGPT, Claude, Gemini benzeri sistemlerin çalışma mantığı kabaca böyledir; ancak bu mantık çok yüksek bir hesaplama maliyeti yaratır. Modelin eğitimi sırasında milyarlarca parametre ayarlanır, çok büyük veri kümeleri işlenir ve bu süreç haftalarca, bazen aylarca, binlerce gelişmiş çip üzerinde yürütülür. Bu nedenle, güçlü bir modeli hangi maliyetle eğitebildiğiniz yarıştaki yerinizi belirliyor.
Daha fazla GPU’ya sahip olanın öne geçtiği bu yarışta, istedikleri model ve adette çipe ulaşamayan Çinli şirketlerin geliştirdiği bazı mühendislik yaklaşımları, aynı donanımdan daha fazla verim alınabileceğini de gösterdi.

Bu yaklaşımlardan biri Mixture of Experts (MoE) mimarisi. Geleneksel modellerde her sorguda modelin tamamı devreye girerken, MoE’de model farklı uzman alt ağlara ayrılıyor ve her girdide yalnızca ilgili bölümler çalıştırılıyor. Böylece model büyük kalırken, her işlem için gereken etkin hesaplama maliyeti düşüyor.
Bir diğer önemli araç 8-bit Floating Point (FP8) eğitimidir. Büyük dil modelleri eğitim sırasında sayısal işlemler yapar ve bu işlemlerde kullanılan sayı gösteriminin hassasiyeti maliyeti doğrudan etkiler. FP8, bazı işlemleri daha düşük hassasiyetle 8-bit seviyesinde yürüterek bellek kullanımını ve veri aktarım yükünü azaltır. Bu yaklaşım, modeli basitleştirmekten çok, hassasiyetin nerede düşürülebileceğini dikkatle seçerek eğitim maliyetini aşağı çekmeyi amaçlar.
Gündeme gelen üçüncü yenilik MLA ya da Multi-head Latent Attention yaklaşımı. Büyük modellerde maliyetin önemli bir kısmı, bağlamı bellekte tutma zorunluluğundan gelir. Yanıtın oluşturulması gereken bağlam uzadıkça bellek yükü ve veri hareketi artar. MLA, bu yükü daha sıkıştırılmış bir temsil üzerinden yöneterek verimlilik sağlar. Böylece gerekli bilgiyi daha kompakt biçimde saklayarak aynı işi daha hafif bir bellek yapısıyla yapmak hedeflenir.
Dördüncü iyileştirme alanı ise iletişim optimizasyonu. Büyük modeller tek bir çipte değil, çok sayıda GPU ve sunucuya dağıtılarak çalıştırılıyor. Bu durumda sorun yalnızca hesaplama gücü değildir; verinin bu parçalar arasında ne kadar hızlı ve düzenli taşındığı da kritik hale geliyor. Hesaplama ile veri iletişimini daha iyi eşleştiren yöntemlerin etkinlik ve verimlilik sağladığı düşünülüyor.
Donanım kısıtları altında maliyeti düşüren ve verimi artıran mühendislik çözümlerinin uygulanabilmesi Çin’i üretken yapay zeka yarışında dezavantajlı konumundan kısmen kurtarıyor. MoE gereksiz hesaplamayı azaltıyor, FP8 sayısal maliyeti düşürüyor, MLA bellek yükünü hafifletiyor, iletişim optimizasyonu da dağıtık sistemlerdeki veri trafiğini daha yönetilebilir hale getiriyor. Böylece Çin elindeki alt model işlemcilere göre daha üstün bir performans ortaya koyabiliyor.
No responses yet