Ana içeriğe atla
OpenAI

21 Eylül 2022

Lansman

Karşınızda Whisper

İngilizce konuşmayı tanıma konusunda insanlarla aynı düzeyde anlayışa ve kesinliğe yaklaşan Whisper adlı nöral ağı eğittik ve açık kaynak olarak paylaşıyoruz.

Yükleniyor...
Yükleniyor...

Otomatik konuşma tanıma (ASR) sistemimiz Whisper, birçok farklı dilde ve görevde 680.000 saatlik internetten toplanmış denetimli veri kullanılarak eğitildi. Kullanılan veri setinin böylesine büyük ve çeşitli olmasının lehçeler ve ağızlar, arka plan gürültüsü ve teknik dil kullanımı açısından anlayışı artırdığını gösterdik. Ayrıca, birçok dilde metin deşifresine ve bu dillerden İngilizceye çeviri yapılmasına olanak tanıyor. Kullanışlı uygulamaların geliştirilmesi ve yüksek anlayışlı konuşma işleme alanlarında araştırmalara temel oluşturması için modelleri ve çıkarım kodlarını açık kaynak olarak yayınlıyoruz.

ASR Model Mimarisinin Özeti

The Whisper architecture is a simple end-to-end approach, implemented as an encoder-decoder Transformer. Input audio is split into 30-second chunks, converted into a log-Mel spectrogram, and then passed into an encoder. A decoder is trained to predict the corresponding text caption, intermixed with special tokens that direct the single model to perform tasks such as language identification, phrase-level timestamps, multilingual speech transcription, and to-English speech translation.

Diagram detailing how ASR models are trained

Mevcut diğer yaklaşımlarda sıklıkla daha küçük, daha yakından eşleştirilmiş ses-metin eğitimi veri setleri1 2, 3 ya da daha geniş kapsamlı ancak denetlenmeyen ses ön eğitimi4, 5, 6 kullanılır. Whisper çok geniş ve çeşitlilik sergileyen bir veri setiyle eğitildiği ve belirli bir veri setine ince ayarlanmadığı için, konuşma tanıma alanında son derece rekabetçi bir benchmark testi olarak tanınan LibriSpeech performance testinde uzmanlaşmış modeller kadar iyi performans göstermiyor. Ancak Whisper’ın sıfır örnekli (zero-shot) öğrenme performansını çok farklı veri setleri ile ölçtüğümüzde, çok daha başarılı olduğunu ve bu modellere kıyasla %50 daha az hata yaptığını gördük.

Whisper’ın ses veri setinin yaklaşık üçte biri İngilizce dışındaki dillerden geliyor ve modele dönüşümlü olarak orijinal dilde deşifre veya İngilizceye çevirme görevleri veriliyor. Bu yaklaşımın konuşmadan metne çeviriyi öğrenme alanında özellikle etkili olduğunu ve CoVoST2 veri setinden İngilizceye sıfır örnekli (zero-shot) çeviride Whisper’ın denetimli en son modellere kıyasla daha iyi performans gösterdiğini gözlemledik.

Yükleniyor...

Whisper’ın yüksek doğruluk oranı ve kullanım kolaylığı sayesinde, geliştiricilerin çok daha çeşitli uygulamalara ses arayüzü ekleyebileceğini umuyoruz. Daha fazla bilgi almak ve Whisper’ı denemek için makaleye(yeni bir pencerede açılır)model kartına(yeni bir pencerede açılır) ve koda(yeni bir pencerede açılır) göz at.

Referanslar

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(yeni bir pencerede açılır).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(yeni bir pencerede açılır).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(yeni bir pencerede açılır).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(yeni bir pencerede açılır).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(yeni bir pencerede açılır).