Google Duplex поднимает вопрос: должны ли роботы звучать роботизировано или человечно?

К настоящему времени вы уже могли видеть новое программное обеспечение Google Duplex, которое может позвонить куда-либо от вашего имени, чтобы заказать ужин, записаться к парикмахеру и тому подобное. Пока что оно существует только в демонстрационной форме, но, похоже, что Google сделал большой шаг в направлении захвата рынка, на который многие компании смотрят уже довольно долгое время. Это программное обеспечение впечатляет, но оно вызывает вопросы.

Многие уже знакомы с неуклюжими, роботическими беседами, воспроизводимые ранними чатботами. Вместо того, чтобы нажимать 1 для подтверждения или 2 для повторного ввода, некоторые из этих ботов допускают использование простых голосовых команд, таких, как «Да» или «Нет». Их использование часто было гораздо более неприятным опытом, чем попытка использовать меню - есть не так много вещей, более раздражающих, чем робот, говорящий: «Извините, ваш ответ не был распознан».

Даже получение распознанного ответа достаточно сложно. В конце концов, существует множество различных нюансов и акцентов для дефолтного программного обеспечения для распознавания голоса и бесконечных поворотов фразы, которые означают то же самое, что может испортить обработку естественного языка (NLP), особенно если вам нравится ваше построение фраз.

Вы можете подумать, что стандартные беседы типа обслуживания клиентов проходят по одному и тому же сценарию, используя похожие слова и фразы. Но когда есть более 80 000 способов заказать кофе, и ошибаться недопустимо, даже простые задачи требуют высокой точности над огромным набором данных.

Достижения в области обработки звука, нейронных сетей и НЛП, а также необработанных вычислительных мощностей означали, что базовое распознавание того, что кто-то пытается сказать, является проблемой. Виртуальный помощник Soundhound гордится тем, что способен обрабатывать сложные запросы.

Более глубокая проблема, как и все попытки развивать разговорные машины, заключается в понимании контекста. Существует так много вариантов, которыми может пойти разговор , что попытка построить разговор двумя или тремя уровнями слоев сталкивается с проблемами. Умножьте тысячи вещей, которые люди могут сказать, на тысячи, которые они могут сказать дальше, и комбинаторика вызова становится недоступной большинству чат-ботов.

Тем не менее, компания Google, которая, несомненно, помнит риск преждевременных дебютов в области технологий из-за истории с очками Google glass, должна верить в Duplex, чтобы показать его на мировой арене. Мы знаем, что стартапы, такие как Semantic Machines, и x.ai получили серьезное финансирование для выполнения похожих функций, используя разговоры на естественном языке для выполнения вычислительных задач, планирования встреч, бронирования отелей или покупки предметов.

Не удивительно, что Google скоро сделает то же самое, приблизив нас к миру бортовых вычислений, где Lens маркирует мир вокруг нас, а их ассистент организует его для нас (постоянно собирая все больше и больше данных, которые он может преобразовать в персонализированные объявления). Ранние демонстрации показали некоторые хитроумные трюки для ведения беседы в довольно узком пространстве, где ИИ должен быть удобным и компетентным.

Тем не менее, учитывая, что индустрия технологий лежит в сфере частной жизни и этики, а также общую тревогу людей в отношении ИИ, основной реакцией на впечатляющую демонстрацию Duplex было беспокойство. Голос робота казался слишком естественным, напомнив Lyrebird и их предупреждения о глубоких фэйках. Таким образом, Google с помощью этой технологии, может вступить в эпоху, когда автоматические чатботы будут гораздо более убедительны.

Более человечноподобный голос может звучать как совершенно безобидное улучшение, но тот факт, что ассистент вводя натуралистические ответы «ммм» и «мм-хм», создавая более совершенную имитацию человека, тревожит многих людей созданием ложного образа. Это был не просто голосовой помощник, который пытался звучать менее роботизировано; он активно пытался обмануть людей, заставляя их думать, что они разговаривают с человеком.

С точки зрения Google, возможность сказать: «90 процентов абонентов не могут отличить это от личного помощника» - отличная маркетинговая уловка, хотя статистика о том, сколько взаимодействий было окончено успешно, может быть более актуальной.

Фактически, Duplex противоречит почти каждой основной рекомендации об этике для использования робототехники или искусственного интеллекта. Прозрачность - это ключ к тому, чтобы удерживать машины (и людей, которые их проектируют) подотчетными, особенно когда речь идет о принятии решений.

По мере того, как ИИ продвигается вперед, можем ли мы в конечном итоге рассматривать уменьшающееся число людей в этих «ориентированных на клиента» ролях в качестве самой тяжелой части полностью автоматического обслуживания?

Google предоставил множество подтверждений того, как система будет использоваться. Они заявили, что обеспечат идентификацию системы, и решить эту проблему едва ли сложно; небольшое изменение в сценарии из их демо сделало бы это. На данный момент потребители, скорее всего, оценят шаги, которые помогут понять, являются ли «интеллектуальные агенты», которые принимают важные решения для нас, и которые прячутся за аватарами или телефонными номерами, реальными или искусственными.

Источник, фото1, фото2, фото3