Meta, yapay zekâ destekli konuşma tanıma teknolojilerinde çığır açacak yeni sistemi Omnilingual ASR’ı tanıttı. Bu gelişmiş otomatik konuşma tanıma (ASR) sistemi, dünya genelinde konuşulan 1600’den fazla dili yazıya dönüştürebiliyor.
Dünya çapında konuşulan 7 binden fazla dilin binlercesi bugüne kadar yapay zekâ desteğinden mahrumdu. Meta’nın Temel Yapay Zekâ Araştırmaları (FAIR) ekibi tarafından geliştirilen Omnilingual ASR, bu boşluğu doldurarak küresel ölçekte dil engellerini ortadan kaldırmayı hedefliyor.
1600 Dilde Konuşma Tanıma
Omnilingual ASR, 300 milyon parametreli hafif sürümden 7 milyar parametreli gelişmiş sürüme kadar farklı modeller içeriyor. Tüm modeller, FAIR’ın PyTorch tabanlı fairseq2 framework’ü üzerine inşa edildi. Bu sistem, konuşulan dili yazılı metne dönüştürmek için eğitildi ve şu alanlarda kullanılabiliyor:
-
Sesli asistanlar
-
Transkripsiyon araçları
-
Altyazı oluşturma
-
Dijital arşivleme
-
Az kaynaklı diller için erişilebilirlik çözümleri
Whisper’a Alternatif Olabilecek Bir Sistem
Bugüne kadar pek çok konuşma tanıma sistemi, yalnızca yüksek miktarda transkripsiyonlu ses kaydı bulunan diller üzerine odaklanıyordu. Örneğin Whisper, 99 dili destekliyor. Buna karşılık Omnilingual ASR, 1600 dili tanıyabiliyor ve bu dillerin 500’ü ilk kez bir yapay zekâ sistemi tarafından destekleniyor.
Meta’ya göre bu sistem, evrensel bir transkripsiyon ağına doğru atılmış dev bir adım niteliğinde. Böylece küresel dil engelleri büyük ölçüde azaltılabilecek.
Yüksek Doğruluk Oranı
Meta’nın paylaştığı verilere göre Omnilingual ASR, test edilen 1600 dilin %78’inde 10’un altında karakter hata oranı sunuyor. En az 10 saatlik eğitim sesine sahip dillerin %95’i bu hedefi yakalarken, düşük kaynaklı dillerin bile %36’sı bu eşiği aşmayı başarıyor.
Ayrıca sistem, “Kendi Dilinizi Getirin (Bring Your Own Language)” özelliği sayesinde bağlam içi öğrenme yeteneğine sahip. Kullanıcılar sadece birkaç ses ve metin örneği sağlayarak yeni diller ekleyebiliyor. Bu sayede yeniden eğitim veya güçlü donanım gereksinimi ortadan kalkıyor. Meta’ya göre bu özellik sayesinde sistemin 5400’den fazla dile genişletilmesi mümkün.
Açık Kaynak ve Genişletilebilir Altyapı
Meta, Omnilingual ASR’ı Apache 2.0 açık kaynak lisansı ile yayınladı. Böylece araştırmacılar ve geliştiriciler modeli serbestçe kullanabilir, düzenleyebilir ve hatta ticari projelere entegre edebilir.
Ayrıca Meta, Omnilingual ASR Corpus adını verdiği yeni bir veri setini de duyurdu. Bu veri seti, 350 az temsil edilen dilde transkripsiyonlanmış konuşma kayıtlarından oluşuyor ve Creative Commons (CC-BY) lisansı altında erişime açık. Bu sayede geliştiriciler, yerel dillere yönelik özel konuşma tanıma modelleri oluşturabiliyor veya mevcut sistemleri özelleştirebiliyor.
Sonuç: Küresel Erişilebilirlikte Yeni Dönem
Meta’nın Omnilingual ASR sistemi, çok dilli konuşma tanıma teknolojileri açısından devrim niteliğinde bir yenilik. 1600 dili destekleyen bu sistem, hem düşük kaynaklı dillerin dijital dünyada temsilini güçlendiriyor hem de yapay zekânın evrensel erişilebilirliğini artırıyor.
