Apple araştırmacıları, sesli asistanların komutları anlama ve yanıt verme biçiminde devrim yaratmayı amaçlayan, ReALM (Dil Modeli Olarak Referans Çözünürlüğü) adı verilen bir yapay zeka sistemi geliştirdi. VentureBeat’e göre Apple araştırmacıları konuyla ilgili bir makale yayınladılar. Bu yazıda Apple, büyük dil modellerinin referans ayrıştırmayı nasıl işlediğini belirlemek için ReALM adı verilen yeni bir sistem sunuyor. Makalede verilen bilgiye göre ReALM adı verilen bu sistem, ekrandaki varlıklara “bu” veya “şu” gibi belirsiz göndermeler içerebiliyor. Ayrıca konuşmayı ve bağlamı da anlayabiliyor. Bu sayede cihazlarla daha sezgisel ve doğal bir şekilde etkileşime girebiliyor. Referans analizi, doğal dili anlamanın önemli bir parçasıdır ve kullanıcıların zamirleri ve diğer dolaylı referansları konuşma sırasında karışıklık olmadan kullanmalarına olanak tanır. Dijital asistanlar için bu yetenek her zaman önemli bir zorluk olmuştur ve çeşitli sözlü sinyalleri ve görsel bilgileri yorumlama ihtiyacıyla sınırlıdır. Apple’ın ReALM sistemi, karmaşık referans ayrıştırma sürecini saf bir dil modelleme problemine dönüştürerek bu sorunu çözmeye çalışıyor. Bunu yaparken ekranda görüntülenen görsel öğelere yapılan göndermeleri anlayabiliyor ve bu anlayışı konuşma akışına entegre edebiliyor. ReALM, metin gösterimlerini kullanarak ekranın görsel düzenini yeniden üretiyor. Bu, ekranın içeriğini ve yapısını temsil eden bir metin formatı oluşturmak için ekrandaki varlıkları ve konumlarını analiz etmeyi içeriyor. Apple araştırmacıları, bu stratejinin, karşılaştırmalı analiz görevleri için dil modellerinin özel olarak ayarlanmasıyla birleştirildiğinde, OpenAI’nin GPT-4’ünün yetenekleri de dahil olmak üzere geleneksel yöntemlerden önemli ölçüde daha iyi performans gösterdiğini buldu. ReALM, kullanıcıların, kesin ve ayrıntılı talimatlara ihtiyaç duymadan, ekranlarında o anda görüntülenenlere dayalı olarak dijital asistanlarla çok daha etkili bir şekilde etkileşime girmesine olanak tanıyabilir. Bu, sürücülerin araç kullanırken bilgi-eğlence sistemlerinde gezinmesine yardımcı olmak veya engelli kullanıcılara daha basit, daha dolaylı ve daha kesin bir etkileşim aracı sağlama konusunda yardımcı olmak gibi çeşitli bağlamlarda sesli asistanları çok daha kullanışlı hale getirme potansiyeline sahiptir.