Аргументы Недели → Общество 13+

Журналистам на заметку. Распознать за 60 секунд

Как искусственный интеллект позволяет превратить аудиозапись интервью в готовый текст за мгновение

, 08:10

Адрес в навигаторе, набранный при помощи голоса, поисковые системы, обрабатывающие голосовые запросы – вот лишь несколько примеров того, как человек превращает речь в текст и использует технологию  распознавания речи в своей повседневной жизни.

Бизнес-сообщество также достаточно быстро оценило уникальные данные, которые могут быть получены при превращении речи в текст. Первыми систему распознавания голоса внедрили представители банковского сообщества, ритейл сегмента, и, конечно же, контактных центров. Эта заинтересованность закономерна – количество взаимодействия с клиентами постоянно растет, при этом сложно оценить его качество. Всем представителям бизнеса хочется знать мнение потребителя о своих услугах, товарах и уровне сервиса. Здесь речевая аналитика незаменима: помимо предоставления ежедневной обратной связи от потребителя, она дает понимание того, как представители компании выстраивают взаимодействие с клиентом.

Казалось бы, СМИ далеки от этих процессов и технологические решения не применимы в контексте творческой работы по подготовке текстов к публикации. Однако компания «Фонемика» разрушила это представление, продемонстрировав нам возможности своего сервиса распознавания речи на примере обработки аудиозаписей интервью. 

Главная задача журналиста – публиковать своевременный и актуальный материал в кратчайшие сроки. Также важна точность воспроизведения комментариев и полнота предоставляемой информации. Однако расшифровка аудиозаписей отнимает значительную часть времени и сил. Так, в среднем, превращение 15 минут аудиозаписи в текст требует порядка одного часа. Если запись речи не на русском языке, то перевод в текст займет в несколько раз больше времени. На литературную и редакторскую правку текста остается не так много времени и сил.      

На протяжении нескольких лет эксперты компании «Фонемика» разрабатывают и совершенствуют алгоритмы распознавания речи и ее перевода в текст. В настоящий момент стерео аудиозапись  расшифровывается с 95% точностью. Речь может быть записана при помощи любого устройства - камеры, диктофона, мобильного или стационарного телефона. 

Процесс превращения речи в текст выглядит следующим образом: аудиозапись загружается на сервер, где алгоритм переводит речь в текст со скоростью один к одному. То есть обработка займет ровно столько времени, сколько длится сама аудио или видеозапись. При этом никаких ограничений по объему материала нет – можно распознать как небольшой комментарий, так и длительное выступление. Распознавание речи может быть сделано в любое время суток и дает возможность подготовить текст к публикации в течение незначительного времени, ускорив процесс транскрибирования в 10 раз. 

Одним из существенных плюсов системы является высокий уровень распознавания даже при условии, что речь была записана в шумном помещении или при иных неблагоприятных условиях. 

Чем еще может помочь журналисту данная система? Ее настройки дают возможность распознавания текста на 34 языках и его автоматического перевода (например, на русский), разделять диалог на реплики участников, анализировать эмоциональное состояние говорящих. 

Превращая видео и аудиозаписи в текст, система распознавания речи облегчает и процесс поиска информации в архиве материалов. Через несколько лет не придется пересматривать или заново слушать все записи, чтобы найти нужную фамилию, событие или дату. Автоматизация процесса распознавания речи не просто экономит время, но и позволяет в этом случае обрабатывать весь комплекс информации, даже те части, которые не вошли в подготовленную публикацию. 

 Искусственный интеллект позволяет журналисту оптимизировать работу по подготовке текста. Всю механическую часть работы осуществляет система распознавания речи, человек же использует освободившееся время для литературного оформления и незначительной редакционной правки текста. Количество подготовленных материалов может быть увеличено в несколько раз. А что гораздо важнее – всегда интересно самому применить новые технологии, увидеть, как они оптимизируют твою ежедневную деятельностью и позволяют эффективнее использовать временные и интеллектуальные ресурсы. 

Журналисты  "Аргументов недели" успешно протестировали данную технологию и рекомендуют коллегам ее использовать для повышения эффективности своей работы.

+7 495 108 12 05
 доб. 103 | M +7 965 110 7000 

Telegram | WhatsApp | Viber
ac@fonemica.ru  |  fonemica.ru

 

 

 

Подписывайтесь на «АН» в Дзен и Telegram