← Все новости

Google AI выпустил датасет WAXAL для африканских языков

• Категория: Искусственный интеллект • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 17.03.2026 11:57

Google AI объявила о выпуске WAXAL — многоязычного африканского речевого датасета, предназначенного для развития технологий распознавания и синтеза речи на африканских языках. Этот датасет является важным шагом в решении проблемы недоучета африканских языков в системах ИИ.

WAXAL содержит высококачественные аудиозаписи на 15 африканских языках, таких как:

  • Амхарский

  • Суахили

  • Йоруба

  • Зулу

  • Хауса

  • Игбо

  • Французский (говоримый в Африке)

  • Английский (говоримый в Африке)

  • И 7 других языков

Датасет включает около 10,000 часов речевых данных, записанных носителями этих языков из различных демографических и географических регионов Африки.

Датасет обладает следующими характеристиками:

  • Высококачественные аудиозаписи (частота дискретизации 16 кГц)

  • Транскрипты для каждой записи

  • Метаданные, включающие демографические данные говорящих и географическую информацию

  • Поддержка задач распознавания речи (ASR) и перевод речи

  • Многоязычная поддержка как африканских, так и европейских языков

Релиз этого датасета помогает решить несколько критических проблем в развитии ИИ для африканских языков:

  • Снижение смещения (bias): Многие существующие системы распознавания речи показывают низкую эффективность на африканских языках из-за недостатка обучающих данных.

  • Обеспечение локализованных решений: Разработчики теперь могут создавать более точные ИИ-системы для пользователей в Африке.

  • Содействие инклюзивности: Помогает гарантировать, что технологии ИИ приносят пользу всем языковым сообществам.

Датасет WAXAL можно использовать для:

  • Обучения моделей распознавания речи

  • Разработки систем перевода речи

  • Создания инструментов идентификации языка

  • Исследований в области вычислительной лингвистики и фонетики

  • Образовательных ИИ-приложений для африканских языков

Датасет доступен через платформы исследований Google AI. Он предназначен для исследователей, разработчиков и организаций, работающих над технологиями распознавания речи и обработки естественного языка.

Эта инициатива демонстрирует приверженность Google развитию инклюзивных ИИ-технологий и закрывает значительный пробел в многоязычных речевых датасетах для африканских языков, потенциально обеспечивая более справедливый доступ к технологиям ИИ для сообществ Африки.

Теги: #ИИ, #машинное обучение, #Google AI, #распознавание речи, #африканские языки, #датасет WAXAL, #ASR TTS