Meta, geçtiğimiz ay kullanıcıların karalamalarını animasyonlara dönüştürebilen bir yapay zeka aracı olan ImageBind’i duyurdu. ImageBind, insan algısını taklit etmeyi öğrenen açık kaynaklı bir yapay zeka modelidir. Bu model, metin, görüntü, video, ses dosyası, 3B ölçümler, sıcaklık verileri ve hareket (IMU) verileri gibi farklı veri türleri arasında bağlantılar kurarak çok katmanlı içerik oluşturabilir.
ImageBind, kullanıcıların veri türleri arasında bağlantılar kurmasına olanak tanır ve bu bağlantıları tahmin ederek çalışır. Veri grupları arasındaki ilişkileri benzer şekilde algılamak için insan algısını taklit eder. Örneğin, bir görseldeki nesneleri algılayabilir ve bu nesnelerin sıcaklık, ses, şekil ve hareket özellikleri hakkında bilgi verebilir. Ayrıca ses tabanlı olarak görüntülerdeki nesneleri ayırabilir ve statik görüntüleri ses komutlarıyla animasyonlara dönüştürebilir.
ImageBind henüz prototip aşamasındadır ve Meta’nın çok modlu yapay zeka sistemleri oluşturma çabalarının bir parçasıdır. Meta, ImageBind’ın kaynak kodlarını GitHub üzerinden paylaşmış ve araştırma dokümanına erişim sağlanmıştır. Teknik detaylara ise Meta’nın web sitesinden ulaşabilirsiniz.