Meta; hem görüntü hem de metin işleyebilen ilk açık kaynaklı modelini piyasaya sürdü. Llama 3.2 olarak adlandırılan bu yeni model, geliştiricilere artırılmış gerçeklik uygulamaları, görsel arama motorları ve belge analizi gibi daha ileri düzey yapay zeka çözümleri geliştirme fırsatı sunuyor.
Meta CEO’su Mark Zuckerberg, Meta Connect etkinliğinde yaptığı konuşmada, “Bu, ilk açık kaynaklı multimodal modelimiz. Görsel anlayışa dayalı pek çok uygulamanın önünü açacak” diyerek Llama 3.2’nin önemine vurgu yaptı. Model, 11 milyar ve 90 milyar parametreli iki görsel modelin yanı sıra, mobil cihazlarda kullanılmak üzere optimize edilmiş, daha hafif ve 1 milyar ile 3 milyar parametreli iki metin odaklı modelden oluşuyor.
Llama 3.2, 128 bin tokenlık bir bağlam kapasitesiyle yüzlerce sayfalık metni işleyebiliyor, bu da modeli daha karmaşık görevler için uygun hale getiriyor. Meta, Llama 3.2’nin Claude 3 Haiku ve GPT4o-mini gibi rakiplerine karşı hem görsel hem de metinsel anlama alanlarında güçlü bir performans sergilediğini, özellikle talimat izleme, özetleme ve araç kullanımı gibi konularda üstünlük sağladığını belirtiyor. Ayrıca Meta, bu modelin farklı ortamlarda kullanımını kolaylaştırmak adına resmi Llama yığın dağıtımlarını da geliştiricilerin erişimine açtı.
Llama 3.2 modelleri, llama.com ve Hugging Face platformlarından indirilebiliyor. Meta’nın bu hamlesi, şirketin yapay zeka alanında rekabet gücünü artırma stratejisinin bir parçası olarak değerlendiriliyor. Özellikle Ray-Ban Meta gözlükleri gibi donanımlarında yapay zeka yeteneklerini geliştirmeyi planlayan Meta, ünlü seslerin entegre edilmesiyle kullanıcı deneyimini daha da zenginleştirmeyi hedefliyor.