AI учится на своих ошибках и все больше похож на мышление людей

Open AI - некоммерческая исследовательская организация из Сан-Франциско занимается созданием открытого и дружественного человечеству искусственного интеллекта. Их последние разработки позволили алгоритмам воспринимать ошибки и неудачи как цели для дальнейшего обучения. В результате AI в процессе учебы прет вперед как танк, не боясь провалов, и все больше напоминает человека разумного.

В последние месяцы исследователи проекта Open AI в основном были сконцентрированы на улучшении алгоритмов машинного обучения. Компьютерные инструкции уже научились себя тренировать, но все равно познание окружающего мир шло не спеша.

Разработчики улучшили структуру алгоритмов, которые позволяют AI не боятся встречи со своей ошибкой, а так сказать оглянуться назад, посмотреть на опыт завершенных задач, а затем небольшую неудачу в настоящем времени воспринимать как переходный этап к достижению будущей цели. Подобное поведение полностью копирует реальных людей во время учебы.

Ключевая особенность алгоритма в том, что он формальным языком инструкций выполняет то, что люди делают интуитивно в течение жизни. Даже когда мы не достигли желаемой и значимой цели, мы всегда можем успокоить себя, что достигли чего-то другого и довольным этим. По сути алгоритм учит AI притворяться, что даже неудача стала тоже некой виртуальной целью во время обучения.

Вспомните, как вы учились ездить на велосипеде. Сразу почти никому не удавалось достичь баланс на двух колесах, поэтому многие падали, но вставали и продолжали ехать. Каждая неудача понемногу училась вас находить тот положение тела, при котором сохранялась бы равновесие и правильное движение. Именно так и учится каждый человек в детстве.

Разработанные в Open AI алгоритмы должны помочь машинам обучаться одинаково хорошо. Как и у человека, в цифровых мозга AI действует система поощрений, которая помогает машине самостоятельно обучаться без дополнительных подсказок. Если искусственный интеллект достигает заданной цели, то получает виртуальные "печеньки", а при неудачной попытке остается без награды. Другая модель поощрения дает маленькие призы в зависимости от того, насколько правильно движется AI к заданной цели.

Оба метода имеют недостатки, которые должны исправить альтернативные алгоритмы от Open AI. Классические инструкции из-за неправильной системы наград делают процесс обучения медленным. Тогда как ретроспективный взгляд в опыт и получение награды даже, фактически, за ошибку или недостижение цели, поможет AI быстрей и качественней выполнять задания.

Новый метод не позволяет моментально обучить AI решению специфических задач, сделать из робота точную копию человека по-прежнему сложно, но, в любом случае, более гибкая система поощрений для AI ускоряет обучение. Машина не впадает во фрустрацию как живые люди при появление ошибок, воспринимает их как часть великого плана и упорно учится дальше.

Источник Фото Unsplash Markus Spiske