О том, как работают нейронные сети, чему можно научить искусственный интеллект и какую роль он будет играть в нашей жизни в будущем, в интервью CNews рассказал Станислав Ашманов, генеральный директор компании «Наносемантика».
CNews: Сейчас много говорят про роботов, искусственный интеллект, нейронные сети, машинное обучение. Чем они отличаются друг от друга?
Станислав Ашманов: Все мы выросли на научной фантастике, в которой роботы — это что-то материальное, этакий железный человек. Но роботы бывают и программные. Среди них есть совсем простые, способные выполнять рутинные операции, например, в бухгалтерских системах. Есть роботы для колл-центров, которые должны уметь работать со входящими или исходящими звонками и максимально качественно вести диалог. Это сложная задача, потому что для того, чтобы поддержать разговор, надо понимать смысл сказанного.
Программные роботы могут решать и другие задачи. Их объединяет одно — как правило, ими пытаются заменить человека. Причины разные — нехватка или высокая стоимость кадров, желание избавиться от «человеческого фактора» и так далее.
Искусственный интеллект — это продвинутая автоматизация. Раньше для оптимизации бизнес-процесса нанимали программиста, а теперь существуют программы, которые учатся сами. Нейронная сеть — это один из видов искусственного интеллекта, конкретный алгоритм или, точнее, семейство алгоритмов. Машинное обучение — более широкое понятие, чем нейронная сеть. Можно объяснить так: есть искусственный интеллект, в нем машинное обучение, а в машинном обучении — нейронные сети.
CNews: Вы уже сказали, где могут применяться программные роботы. Может быть, расширите список примеров?
Станислав Ашманов: Решения на базе машинного обучения и искусственного интеллекта можно разделить на группы в соответствии с типом данных, с которыми они работают. Например, существуют специфические алгоритмы для обработки текстов: классификации документа, присвоение ему тега: спам/не спам, срочное/несрочное обращение и пр., извлечение из него объектов: ФИО, адреса, типа проблемы и пр. Иногда возникают и другие задачи. Например, наши технологии умеют лучше всех проверять тексты на предмет орфографических, пунктуационных, стилистических ошибок. Мы занимаемся этим 30 лет, у нас самый большой словарь и самые умные алгоритмы.
Еще есть работа с изображениями: видео или фотографиями. Во-первых, можно генерировать изображения — например, накладывать на лицо человека очки, менять его возраст, делать из мужчины женщину. А можно искать и распознавать на изображениях объекты: например, лицо человека, номер автомобиля, светофоры, оружие.
Отдельное направление — работа с аудиозаписями. Например, перевод аудио в текст. Чтобы голосовой робот мог ответить человеку, он должен услышать речь, перевести ее в текст, распознать его смысл. Этой проблемой занимаются уже лет сорок, и мы близки к тому, что машина будет слышать и говорить не хуже человека, имитируя понимание смысла. Существует задача синтеза речи (прочтение, озвучка текстов роботом), и мы этим тоже занимаемся.
Есть еще несколько направлений. Это рекомендательные системы в соцсетях, которые следят за нашими действиями и понимают, что нам можно продать. Или задачи, связанные с робототехникой, когда беспилотный автомобиль планирует траекторию движения по городу.
Для всех этих задач используется практически один и тот же набор алгоритмов — разнообразных нейронных сетей. Но самое главное — это данные. Алгоритмы с течением времени могут заменяться, но обучающие данные всегда остаются ценными. Именно на примерах, на так называемых «датасетах», наборах данных, учатся умные алгоритмы. Они изучают примеры текстов, изображений, видео — в которых заботливые люди разметили все, что может быть полезно алгоритму, чтобы научиться видеть, слышать и понимать, как мы.
CNews: Работы по созданию искусственного интеллекта стартовали около 60 лет назад. Однако всплеск интереса к ним произошел лет 10 назад. В чем причина?
Станислав Ашманов: Точка бифуркации приходится на 2012 год. Именно к этому моменту сложились три компонента. Во-первых, благодаря распространению компьютерных игр с качественной графикой появились доступные суперкомпьютеры с видеокартами, которые могут работать с большими матрицами в реальном времени. А для таких алгоритмов, как нейронные сети, нужно делать очень много вычислений. Второй компонент — ученые наконец-то придумали, как обучать глубокие, многослойные нейронные сети. Суть в том, что нейронная сеть, как конструктор лего, собирается из отдельных разнообразных кубиков — модулей обработки данных, которые, как поезд или цепь, объединяются в одну структуру. Входные данные слой за слоем проходят обработку в этих слоях нейронной сети. Примерно к 2012 году стало понятно, как при обучении, калибровке нейронной сети, через все слои пронести полезный сигнал. То есть математика объяснила как, а процессоры дали возможность.
И третий компонент — это огромные объемы данных, на которых нейронная сеть может обучаться. Человек может научиться на двух-трех примерах, а нейронной сети, увы, их нужны тысячи. Откуда берутся эти данные? Например, сейчас у каждого из нас в кармане есть устройство по сбору данных — смартфон с кучей сенсоров. Кроме того, мы сами становимся поставщиками данных, например, когда выкладываем фотографии в интернет или пользуемся онлайн-сервисами.
Когда все эти три фактора сошлись в одной точке, стало понятно, что искусственный интеллект становится реальностью и в него пора инвестировать. Сегодня этим занимаются крупнейшие корпорации.
CNews: Вы говорите, что искусственным интеллектом занимаются крупнейшие корпорации, такие как Google, Яндекс. Где на этом рынке место для вашей компании?
Станислав Ашманов: Google, Яндекс и другие закрывают собственные потребности, которые связаны в основном с ростом рекламной выручки. А к таким компаниям, как наша — независимым разработчикам искусственного интеллекта — обращаются компании, у которых нет собственных отделов по искусственному интеллекту, но они поняли, что им нужна продвинутая автоматизация, алгоритмы анализа данных. Наши заказчики обычно знают, какую проблему они хотят решить с помощью современных технологий.
Например, для Газпромнефти мы сделали решение по анализу переписки между разными структурными подразделениями с тем, чтобы избежать потери важной информации. Другой наш заказчик работает с фотографиями, и ему надо было научить нейронную сеть удалять на них фон. Еще одному понадобилось автоматически распознавать заболевания позвоночника на рентгеновских снимках. Задачи самые разные. Но мы можем автоматизировать все, что угодно.
CNews: В чем состоит инновационность нейросетей от «Наносемантики»?
Станислав Ашманов: Во-первых, мы делаем все под ключ. Часто бывает, что специалисты по нейронным сетям готовы решить задачу, но просят предоставить им данные. А у заказчика их может не быть или данные могут быть некачественные. Понятно, что если на входе нейронной сети при обучении мусор, то и на выходе будет мусор.
Мы не требуем, чтобы нам принесли все готовое. В нашей компании есть примерно 50 человек, асессоров, которые занимаются разметкой данных. Мы это делаем сами, потому что сталкивались с ситуацией, когда заказ разметки на стороне превращался в выброшенные деньги и потерянное время. Мы должны сами отвечать за качество обучающих данных. В случае необходимости мы можем привлечь к работе тысячи асессоров: например, они будут ходить по улицам, фотографировать и размечать данные. Все эти люди прошли специальное обучение, мы контролируем их работу. Для разметки данных мы разработали специальное программное обеспечение — платформу «Маркер», которая позволяет эффективно организовывать работу разметчиков, асессоров. А значит, данные будут качественные, и это — залог успеха.
Во-вторых, у нас есть собственная нейросетевая платформа PuzzleLib. Раньше для написания нейронных сетей разработчикам приходилось с нуля писать все математические алгоритмы обучения и обработки данных. Теперь существуют специализированные программные комплексы, их называют нейросетевыми платформами или фреймворками, которые позволяют, как из конструктора, собирать нейронную сеть, а затем обучать ее разными видами алгоритмов. Потом решение оптимизируется под конкретную инфраструктуру — серверы, мобильные устройства и т.д.
Наша платформа — это полностью российская разработка. Она входит в реестр российского ПО и позволяет собирать нейронные сети, которые не уступают по качеству нейросетям Google, а он является одним из лидеров рынка. И этим мы отличаемся от уже упомянутого Яндекса или Сбербанка, которые используют зарубежные платформы.
CNews: С какими запросами заказчики сегодня обращаются чаще всего?
Станислав Ашманов: Очень большой интерес к компьютерному зрению. Например, автомобиль одного из наших заказчиковездит по Москве, снимает видеоролики, делает фотографии для того, чтобы создать цифровой двойник города. Мы помогаем находить на изображениях важные объекты: светофоры, дорожные знаки, разметку. Наша задача определить, как они сориентированы, не покосился ли столб, не испачкан ли дорожный знак и так далее.
Кроме того, в «Наносемантике»есть отдельное крупное направление по голосовым помощникам — мы занимаемся этим уже примерно 20 лет. Основная задача — с помощью умных алгоритмов снизить нагрузку на операторов колл-центра и передать максимальное число звонков роботу. У нас есть промышленная платформа для создания голосовых роботов, она называется «ДиалогОС» . С ее помощью можно из готовых элементов собрать голосового помощника, который будет знать, как здороваться, прощаться, у него будут типовые сценарии и наборы объектов, смыслов.
Затем помощник проходит обучение у сценаристов (инженеров знаний), которые вкладывают в него навыки, необходимые заказчику. Например, в L’Etoile работает наш чат-бот Лола. Она знает все про косметику, может ответить на вопросы, помочь выбрать подарок маме, супруге, отследить статус заказа, принять заявку на возврат и прочее.
CNews: Сколько времени занимает обучение робота?
Станислав Ашманов: Обычно через 2-3 месяца после запуска робот уже начинает работать и приносить пользу. Потом в процессе пилотирования мы можем вносить коррективы.
Хороший робот может взять на себя не менее 40% звонков. В некоторых сферах, где требуется обрабатывать много стандартных запросов, эта цифра доходит до 90%.
CNews: Раньше ваша компания специализировалась именно на создании чат-ботов. Как выросли компетенции «Наносемантики» после присоединения команды нейросетей?
Станислав Ашманов: Первые 10-15 лет существования «Наносемантика» действительно разрабатывала чат-ботов. Потом мы стали заниматься нейросетями и делать голосовых роботов. Поскольку наши заказчики столкнулись с тем, что для обучения искусственного интеллекта нужны данные, они попросили нас заняться их сбором. Сейчас у нас покупают данные Сбербанк, МТС, ВТБ. Кроме того, мы организовали курсы по искусственному интеллекту и помогаем набирать кадры.
CNews: Каким образом нейросети используются в чат-ботах?
Станислав Ашманов: Во-первых, они переводят устную речь в текст. Для этого используется несколько нейронных сетей. Одна умеет отличать тишину от голоса. Другая — превращать голос в набор букв. Третья — превращать набор букв в набор слов. Еще одна нейронная сеть расставит знаки препинания, отдельный алгоритм восстановит заглавные буквы в именах, названиях организаций, аббревиатурах, переведет слова в цифры, например, в номере телефона.
Потом текст нужно проклассифицировать, то есть, навесить теги: человек выразил недовольство, человек согласился, человек хочет сделать заказ и т.д. — параметры могут быть самые разные. Затем надо извлечь объекты из текста, например, что конкретно хочет заказать человек, в каком количестве, когда и т.д. Или выделить негативные высказывания для того, чтобы сразу перевести человека на опытного оператора, особенно если это премиальный клиент. Все это делает комплекс нейронных сетей.
CNews: Нейронная сеть способна различать эмоции?
Станислав Ашманов: Определять по аудио эмоцию человека пока никто, кроме человека, не умеет. Единственное, что можно определить, — это громкость сигнала. Либо можно следить за ключевыми словами в сказанном. Еще робот может узнавать человека по голосу — это называется голосовая биометрия. Мы этим тоже занимаемся.
CNews: Многие крупные разработчики вкладывают большое количество усилий и времени в открытые проекты (open source). Есть ли подобные проекты у «Наносемантики»?
Станислав Ашманов: У всех наших решенийесть закрытая проприетарная версия и открытая бесплатная, которую может взять любой человек или компания даже для коммерческого использования. Это делается, чтобы популяризировать наши технологии среди разработчиков, ученых, корпоративных пользователей. Понятно, что бесплатная версия урезана: она может знать меньше слов, распознавать с меньшим качеством, медленнее работать. Закрытая версия обеспечивает максимальное качество, и мы постоянно ее развиваем.
Синтез речи у нас тоже выложен в открытый доступ. Есть два голоса — Артем и Наталья. Их тоже можно использовать в коммерческих проектах. В открытый доступ выложена и наша чат-бот платформа. Там же можно найти собранные нами огромные датасеты. Все эти компоненты можно брать и использовать в любых проектах.
CNews: Есть ли еще такие области, где нейросети и ИИ могли бы использоваться, но еще не используются?
Станислав Ашманов: Думаю, что очень перспективные области для использования искусственного интеллекта — химия и медицина.
Существует огромное количествоеще не изученных химических веществ. Из них делают лекарства, духи, токсины и красители, поэтому ориентироваться во всем многообразии химических соединений очень важно. Мы сейчас участвуем в таком проекте. Наши партнеры создают алгоритм оценки токсичности химического соединения на основании его формулы. Это может быть полезно, например, когда в Россию собираются завезти вещество, которое еще никем не протестировано. Алгоритм поможет понять, что случится, если оно попадет в организм человека.
Если говорить о медицине, то искусственный интеллект может помочь врачу планировать операции на основании изучения истории других подобных операций, и подсказывать, какие решения принять.
CNews: Сейчас часто говорят о дефиците ИИ-специалистов на отечественном рынке. Как вы считаете, с чем связан подобный дефицит, действительно ли сложно найти качественных специалистов?
Станислав Ашманов: После ухода из России иностранных вендоров многие остались без работы,поэтому сейчас проблема с кадрами стоит не так остро, как полгода назад. Конечно, есть специалисты, которые покинули страну, но их не так много. Например, в нашей компании уехали 2-3 человека из 130. Причем это не те люди, на которых держался бизнес.
Специалисты «Наносемантики» в основном работают удаленно, из разных уголков страны и из-за рубежа. Мы не жалуемся на дефицит кадров, потому что куем их сами. Этим летом, например, взяли на стажировку 13 человек. В прошлом году после стажировки у нас осталась работать треть практикантов. Мы оставляем только тех, кто нам больше всего понравился и кого есть, чем занять. Думаю, в этом году из 13 останется четыре-пять человек.
Конечно, рынку нужны специалисты. Некоторые из них из-за дефицита стоят очень дорого. И именно таких специалистов надо воспитывать. Например, DevOps — людей, которые занимаются обслуживанием серверной инфраструктуры. Мы берем разработчиков и переучиваем на DevOps.
CNews: Каким будет мир через 10 лет с точки зрения проникновения искусственного интеллекта?
Станислав Ашманов: Мне кажется, все будет примерно так же, как сейчас: будет появляться все больше умных устройств и умных программ. Меня лично пугают две вещи: умное оружие с искусственным интеллектом, которое будет само принимать решение о том, кого нужно уничтожить, и появление нейроимплантов, которые сотрут грань между человеком и компьютером. Это будет страшно, само понятие личности начнет стираться, не понятно, как от этого защититься. Вот представьте себе, что к вам приходит ребенок и говорит: «Ну почему у меня до сих пор нет нейроимпланта? У всех в классе есть, и поэтому они отличники, один я сам считаю интегралы! Чем я хуже!». Как тогда быть? По-моему, это жутко.
Источник: CNews