Нейробиологи обучают искусственный интеллект обработке звуков, подобно людям

Используя систему машинного обучения, известную как глубокая нейронная сеть, исследователи Массачусетского технологического института (MIT) создали первую модель, которая может воспроизвести работу человека при решении слуховых задач, таких как определение музыкального жанра.

Эта модель, состоящая из множества слоев блоков обработки информации, которые могут обучаться на огромных объемах данных для выполнения конкретных задач, использовалась исследователями для того, чтобы пролить свет на то, как мозг человека может выполнять те же задачи.

"То, что эти модели дают нам, впервые, это машинные системы, которые могут выполнять сенсорные задачи, которые важны для человека, и которые делают это на человеческом уровне", - говорят исследователи. "Исторически сложилось так, что этот тип сенсорной обработки трудно понять, отчасти потому, что у нас не было очень четкой теоретической основы и хорошего способа разработки моделей того, что может происходить».

Исследование, появившееся в выпуске Neuron от 19 апреля, говорит о том, что слуховая кора человека организована в иерархической организации, подобно зрительной коре. В этом типе расположения сенсорная информация проходит через последовательные этапы обработки, причем основная информация обрабатывается ранее и более продвинутые функции, такие как словосочетание - на более поздних этапах.

Выпускники Массачусетского технологического института Александр Келл и помощник доцента Стэнфордского университета Даниэль Яминс являются ведущими авторами статьи. Другие авторы - бывший ученик Массачусетского технологического института Эрика Шук и бывший постдоктор Массачусетского технологического института Сэм Норман-Хеннер.

Моделирование мозга

Когда глубокие нейронные сети были впервые разработаны в 1980-х годах, нейробиологи надеялись, что такие системы могут быть использованы для моделирования человеческого мозга. Однако компьютеры той эпохи не были достаточно мощными, чтобы создавать модели, достаточно большие для выполнения реальных задач, таких как распознавание объектов или распознавание речи.

За последние пять лет достижения в области вычислительной мощности и технологии нейронных сетей позволили использовать нейронные сети для выполнения сложных реальных задач, они стали стандартным подходом во многих инженерных приложениях. Параллельно некоторые нейробиологи пересмотрели возможность того, что эти системы могут использоваться для моделирования человеческого мозга.

"Это была захватывающая возможность для нейробиологии, поскольку мы можем создавать системы, которые могут делать некоторые вещи, которые могут делать люди, и мы можем проанализировать модели и сравнить их с мозгом".

Исследователи MIT обучили свою нейронную сеть выполнять две слуховые задачи, одна из которых связана с речью, а другая-с музыкой. Для речевого задания исследователи дали машине тысячи двухсекундных записей говорящего человека. Задача состояла в том, чтобы определить слово в середине клипа. Для музыкального задания алгоритму было предложено определить Жанр двухсекундного клипа музыки. Каждый клип также включал фоновый шум, чтобы сделать задачу более реалистичной (и более сложной).

После многих тысяч примеров модель научилась выполнять задачу так же точно, как и слушатель.

Идея заключается в том, что с течением времени модель становится все лучше и лучше в выполнении задач. Система имела тенденцию допускать ошибки в тех же клипах, на которые люди совершили ошибки наиболее часто.

Блоки обработки, которые составляют нейронную сеть, могут быть объединены различными способами, образуя различные архитектуры, которые влияют на производительность модели.

Команда MIT обнаружила, что лучшей моделью для этих двух задач была модель, которая разделила обработку на два набора этапов. Первый набор этапов был разделен между задачами, но после этого он разделился на две ветви для дальнейшего анализа— одну ветвь для речевой задачи и одну для музыкальной жанровой задачи.

Доказательства иерархичности

Затем исследователи использовали свою модель для изучения давнего вопроса о структуре слуховой коры: организована ли он иерархически.

В иерархической системе ряд областей мозга выполняет различные типы вычислений сенсорной информации по мере ее прохождения через систему. Было точно задокументировано, что визуальная кора имеет именно такой тип организации. Более ранние области, известные как первичная зрительная кора, реагируют на простые функции, такие как цвет или ориентация. Более поздние этапы позволяют выполнять более сложные задачи, такие как распознавание объектов.

Однако было трудно проверить, существует ли этот тип организации в слуховой коре, отчасти потому, что не было хороших моделей, которые могут реплицировать слуховое поведение человека.

"Мы думали, что если бы мы построили модель, которая могла бы делать некоторые из тех же самых вещей, что и люди, мы могли бы затем сравнить различные этапы работы модели с различными частями мозга и получить некоторые доказательства того, могут ли эти части мозга быть иерархически организованы"

Исследователи обнаружили, что в их модели основные характеристики звука, такие как частота, легче извлечь на ранних стадиях. Поскольку информация обрабатывается и перемещается дальше по сети, становится труднее извлекать частоту, но легче извлекать информацию более высокого уровня, такую как слова.

Чтобы увидеть, могут ли этапы модели повторять, как слуховая кора человека обрабатывает звуковую информацию, исследователи использовали функциональную магнитно-резонансную томографию (fMRI) для измерения различных областей слуховой коры, когда мозг обрабатывает звуки реального мира. Затем они сравнили реакции мозга с реакциями в модели, когда она обрабатывала те же звуки.

Они обнаружили, что средние стадии модели наилучшим образом соответствуют активности в первичной слуховой коре, а более поздние - активности вне первичной коры. Это свидетельствует о том, что слуховая кора может быть организована иерархически, подобно зрительной коре, говорят исследователи.

То, что исследователи зафиксировали очень четко, - это различие между первичной слуховой корой и всем остальным.

Авторы планируют разрабатывать модели, которые могут выполнять и другие типы слуховых задач, такие, как определение местоположения, из которого идет конкретный звук, чтобы понять, могут ли эти задачи быть выполнены путями, определенными в этой модели, или они требуют других способов.

Подробней, фото1, фото2, фото3