Как правило, модель распознавания речи и приобразования ее в текст предполагают прямо обучение на нескольких тысячах часов аудиозаписей с текстовой расшифровкой и разметкой. Однако задача серьезно усложняется для тех языков, которые практически не используются в индустриальном мире (то есть, для них не существует исходных данных в традиционных форматах).
В компании прибегли к нестрандартному методу — обратились к религиозным текстам, например, из библии. Они являются основополагающими и переведены на большое количество существующих (и не используемых) языков. Кроме того, тексты из библии существуют в виде аудиозаписей, на которых они зачитываются.
Авторы проекта Massively Multilingual Speech (MMS) подчеркнули, что несмотря на содержание обучающих материалов, искусственный интеллект не склонен к религиозному мировоззрению, а также к гендерному перекосы (хотя большинство религиозных аудиозаписей зачитывают мужчины). В добавок, они утверждают, что MMS имеет в два раза меньше ошибок, чем существующие аналоги.
Отмечается, что самые нашумевшие языковые модели ИИ «знают» гораздо меньше языков и, тем более, не могут воспроизводить такое количество. Например, модель OpenAI Whisper поддерживает в 11 раз меньше языков. Стоит отметить, что большинство современных технологических гигантов ограничиваются набором в 100 языков.