Заменят ли компьютеры переводчиков
Последние несколько десятков лет в языковой среде активно ведутся споры о возможности замещения человеческого труда машинным. Абитуриенты языковых ВУЗов начали всерьез задумываться об актуальности своей будущей специальности через 10-20 лет. Обоснованны ли их опасения?
Давайте попробуем разобраться в ситуации. Начнем с того, насколько далеко продвинулись современные электронные переводчики и, на что они, действительно, способны.
Несколько лет назад по интернету ходила хохма о переводе сайта одного чиновника. Недолго думая, он решил сэкономить и перевел его электронным переводчиком, выложив сие творение в сеть «на суд читателя».
О том, как Сергей Яблочков превратился в Srgey Apples
Если описать в двух словах полученный результат, то получился готовый текст для выступления в программе «Аншлаг». Самым «жирным» перлом в этой «бересте мудрости» был перевод фамилии владельца сайта. Фамилия «Яблочков» была переведена как «Apples» .
Самые последние переводческие программы переводят не намного лучше. Что может машина? Она способна путем математических расчетов заменить одни слова другими. Более сложные программы умеют соблюдать более-менее правильный порядок слов в предложении. На этом все.
Танцы, я просто занят.
Давайте попробуем перевести при помощи переводчика гугл название популярной песни «i'm just busy dancing» . Если бы эту фразу переводил человек, то он бы перевел ее как «Я просто занята танцем», а хороший литературный переводчик перевел бы как «Я просто вся в танце!». А что же нам выдает цифровая машина? - «Танцы, я просто занят» .
Этот «феномен» мы наблюдали и будем наблюдать ровно до тех пор, пока компьютер не станет обладать искусственным интеллектом. По мнению специалистов в области программирования, подобный поворот событий невозможен на физическом уровне.
Теперь давайте пофантазируем и представим, что искусственный интеллект все же создан. Есть ли смысл учиться на переводчика? Конечно, нет! Теперь нет абсолютно никакого смысла учиться вообще. Если искусственный интеллект будет создан – компьютеры заменят не только переводчиков. Они заменят юристов, бухгалтеров, банкиров, грузчиков, парковщиков, водителей и всех остальных.
Любой человеческий труд будет бессмыслен т.к. машина выполнит его на порядок качественнее, быстрее и дешевле. Более того – машина может выполнять его круглосуточно без перерывов на обед и сон.
Итого.
Давайте подведем итоги. На данный момент электронные переводчики не могут заменить людей. Даже как вспомогательный инструмент для лингвиста они весьма неточны и ненадежны. Бояться потери актуальности профессии «переводчик» в будущем = бояться изобретения искусственного интеллекта, который заменит людей во всех сферах.
Учитесь на переводчиков! Изучение языков способствует развитию памяти, интеллекта, значительно расширяет ваш кругозор. Данная профессия всегда будет актуальна, а хорошие специалисты всегда будут высоко востребованы.
Общение компьютера и человека на естественном, всем нам привычном языке – одна из актуальных и понятных задач развития технологий. Ее качественное решение позволит увеличить скорость нашего взаимодействия с интерфейсами устройств и приложений, эффективно распределять внимание при работе с ними, обойти связанные с незнанием языков барьеры, автоматизировать рутинные операции при обработке информации.
С какими особенностями языка это связано, и ждет ли нас серьезный скачок в обработке естественного языка в ближайшие 10 лет? Будет ли в 2030 году искусственный интеллект писать за нас письма и статьи, синхронно переводить видеоролики и сочинять детям сказки? Отвечает на вопросы Илья Калагин, руководитель Центра когнитивных технологий «АйТеко».
Компьютерная лингвистика оказалась весьма сложной областью для предсказаний. Начало ее развития связано с оптимизмом первопроходцев — специалистов, реализовавших первые попытки машинного перевода. В 1950-х представлялось, что для успеха стоит лишь загрузить в память компьютера описание одного языка, выделить универсальные принципы, решить технические проблемы, и у человечества появится инструмент для письменного общения на любых языках. Этого не произошло из-за ряда причин, в том числе упущенной из виду важности контекста и многозначности слов.
И речь не только о том, что слово «лук» при едином написании имеет разные значения, но и о том, что словоформа «двери» может в русском языке быть формой пяти падежей. Все эти проблемы остались актуальны и в 2019-м. Давняя задача разрешения анафоры остается в фокусе хакатонов, соревнований и отраслевых конференций компьютерных лингвистов. Под ней понимаются предложения типа «Владимир поднялся на холм, он был пологий», в которых мы легко понимаем, что пологим был холм, а не Владимир, но для машины установить эти отношения сложно.
Язык оказался сложнее наших представлений о нем, а развитие технологии — не укладывающимся в экспертные прогнозы. В 1980-х было сложно предсказать значение статистических методов, использование которых уже в следующем десятилетии серьезно изменило ситуацию в машинном переводе.
Компания IBM получила доступ к документации двуязычного канадского парламента – корпус параллельного текста на английском и французском языках. Ранее использовался подход на правилах: в машину загружались сотни правил, регламентирующих, как именно переводить ту или иную языковую конструкцию. Эти инструкции разрабатывались лингвистами. IBM предложила машинный перевод на основе статистических данных: правила не загружались в систему специалистами, а автоматически выделялись машиной на основе примеров перевода из параллельных текстов.
Прогнозы в компьютерной лингвистике нам в первую очередь помогают понимать настоящее и анализировать тенденции, а уже во вторую – предсказывать будущее. Невозможно было предугадать и превращение дистрибутивной семантики в один из самых ярких трендов отрасли. В её основе лежит гипотеза, что значение слова определяется контекстом. Если слова встречаются в одном и том же контексте, то можно предположить, что и значения у них будут синонимичные, либо они будут иметь тесные семантические связи (связи значений).
Для использования моделей дистрибутивной семантики не нужно привлекать лингвистов, поскольку анализ контекста происходит в виде математических операций. Для рядового пользователя не всегда очевидно, что компьютер не оперируют «словами», он может взаимодействовать только с числами, поэтому слово так или иначе должно быть переведено в числовой вид.
В дистрибутивной семантике слово превращается, например, в трехсотмерный вектор, то есть в последовательность из 300 чисел, которая и содержит данные о контексте его употребления. Эта числовая последовательность и позволяет нам определить, что различные слова или написания – это синонимы. С помощью дистрибутивной семантики можно установить, что разные написания МГУ обозначают одну организацию. На практике это позволяет, к примеру, находить договоры с одним поставщиком или качественно проводить патентную экспертизу.
Мы видим, что генерация уже реализована для текстов небольшого объема с жесткой структурой, определенной тематикой и жанровой принадлежностью. Такие инструменты в будущем получат еще более широкое распространение, но вряд ли смогут использоваться для генерации аналитических статей, расследований или репортажей.
На стадии сбора информации для их подготовки будут востребованы решения на базе ИИ для обработки больших объемов данных и интеллектуального поиска информации. Помимо этого, современная компьютерная лингвистика позволяет автоматически извлекать из текстов такие типы данных, как физические и юридические лица, топонимы, реквизиты. В журналистской и бизнес-практике это уже используется для выявления аффилированных связей.
Программы и роботы могут работать со «смыслом» лишь на уровне имитации его формальных признаков и вряд ли смогут выйти на другой уровень в обозримой перспективе. Также автор при создании текста держит в уме потенциальный опыт читателя, его знакомство с определенными терминами и концепциями, общие культурные коды. На основе этого знания он оценивает, какая новая информация в тексте требует дополнительного разъяснения, а какая – нет. Для машин в настоящем и обозримом будущем такая работа с контекстом останется недостижимой.
И стоит помнить, что если тексты и будут писать роботы, то читать их по-прежнему будут люди. И здесь мы сталкиваемся со сложной системой отношений текста, автора и читателя: часто у читателя есть запрос не на данные, а на экспертную их оценку; ему важен уровень доверия автору и личное отношение. Если посмотреть на контент соцмедиа, то становится очевидно, что текст для нас не только информация, но и развлечение, и общение. Нам важно не только что написано, но и кем и как.
Еще более справедливо это для художественной литературы, функции которой состоят в том числе в передаче личного опыта, переживаний, описания внутреннего мира, а также в получении удовольствия от использования автором художественных средств, языковых игр и юмора. Существует понятие метатекста, вывести формулу которого маловероятно. Но можно спрогнозировать привлечение писателями ИИ для анализа существующих текстов и генерации имен персонажей, названий локаций, возможных сюжетных поворотов и других подобных задач.
Наверное, одно из самых показательных направлений для демонстрации существующий ограничений – это средства проверки орфографии и пунктуации, так называемые спелл-чекеры. Если вы пользуетесь популярными офисными пакетами или приложениями, то знаете, что встроенные инструменты проверки написания постоянно совершенствуются, но до совершенства им далеко.
Существуют платные решения, в том числе облачные сервисы, которые проводят проверку более качественно, но и они не способны выявить большинство ошибок. В пример можно привести часто встречающиеся опечатки – случаи неверного согласования: «отдал коллеги», «красивая платье». Сложности обусловлены именно омонимией, когда одна форма может употребляться в нескольких падежах. На качество проверки влияют и низкочастотные слова, которые система проверки воспринимает как незнакомые и неверные.
Сейчас все чаще появляются граммар-чекеры — сервисы, которые работают уже не с отдельными словами, а языковыми конструкциями. В будущем, скорее всего, идеального универсального спелл-чекера не появится, но будут развиваться отраслевые решения, учитывающие актуальный для пользователя контекст. Также проблема написания низкочастотных слов может быть решена за счет подключения справочников, тезаурусов и персональных настроек словаря.
Подобные разработки могут использоваться для автоматизации лингвистической экспертизы в судебной практике, например, для установления факта оскорбления. Интересно отметить и рост количества размеченных текстовых ресурсов с примерами употребления юмора, иронии, сарказма, который связан с возросшим спросом на автоматическое выявление этих явлений в текстах.
Одной из особенностей развития машинного перевода прошлых лет был фокус рынка на так называемых высокоресурсных языках, к которым относят английский, французский, немецкий, испанский и китайский. При этом многие языки с миллионами носителей оставались без внимания из-за отсутствия коммерческого интереса к регионам их распространения. Классическим примером является амхарский язык, на котором говорит около 25 миллионов человек в Африке.
В последнее время мы наблюдаем изменение этой ситуации, в частности, компании начали инвестировать в развитие сервисов и качество машинного перевода для тюркских языков Средней Азии. Объясняется это также экономическими причинами, в первую очередь интересами западных и местных нефтяных компаний в этом регионе. Причиной развития инструментов перевода для таких языков, как бенгали и панджаби, стал перенос производства и ИТ-разработки в индийские штаты с более низким уровнем оплаты труда.
За прошедшее десятилетие в машинном переводе произошел качественный скачок, связанный, прежде всего, с использованием нейросетевых технологий. В перспективе 5-10 лет стоит говорить о всё более уверенном движении в сторону перевода не на уровне текста, а на уровне предложения. Можно ожидать разрешение проблемы анафоры для таких развитых пар языков, как английский-испанский.
При этом уже на достаточном уровне качества реализована задача перевода технических текстов и документации, в дальнейшем процесс будет совершенствоваться. Но ожидать в рассматриваемом отрезке автоматизации художественного и синхронного перевода не стоит. Стоит ждать решений на базе стремительно развивающихся речевых технологий, которые позволят нам смотреть, например, англоязычные видеоролики на YouTube с озвучкой на русском языке. Технологии машинного перевода уже сейчас позволяют создавать субтитры, которые с помощью систем синтеза речи будут озвучиваться.
Век технологий врывается в каждую сферу жизни, предоставляя открывающиеся перспективы, предписывая меняющиеся нормы и правила.
Новшества не обходят стороной представителей переводческого мира: в глубине каждого из нас частенько всплывают вопросы о нужности нашей профессии; готовности и способности конкурировать с сильными, выносливыми противниками – компьютеризированными системами.
Будущие выпускники факультетов иняза отчаянно бросаются конспектами, спрашивая себя: буду ли я востребован на бирже, если в бой пробиваются набирающие популярность онлайн-переводчики, приложения по грамматической корректировке текста, и так далее?
Для накала страстей предлагаю лирическое отступление: вы будете смеяться (без паники, нервная ухмылка — тоже смех), но многие реально продают свои опусы, копируя оригинал в обычный онлайн-переводчик. И — о чудо! — получают за это пусть небольшие, но деньги. Представляете?
А вы, просидевшие за рабочим ноутбуком семь часов подряд, с дёргающимся глазом и влитыми в ваш организм реками кофе, еле-еле закрываете несколько документов, дрожащей рукой в спешке отправляете драгоценный перевод работодателю.
Только не торопитесь опрокидывать стол и собирать вещи в университет за новыми знаниями!
Итог у вышеописанной истории таков: заказчик не вернётся к такому «вундеркинду». Если первый заказ случайно «проскочил» проверку по неопытности или невнимательности принимающего, второй — вряд ли будет рассматриваться. Не мне вам рассказывать, насколько видна разница между переводом, выполненным даже начинающим специалистом и работой онлайн-системы.
Прочие реалии для рассмотрения:
- CTRL+C и CTRL+V из онлайн-переводчика нуждается в более внимательном редактировании (с точки зрения стилистики/релевантности использованных понятий, грамматики);
- Компьютер не в состоянии рассмотреть альтернативные варианты, поэтому не станет дорабатывать уже переведённое;
- Неназванный неоспоримый аспект: язык — способ коммуникации человека с подобным, возможность передачи мысли и информации; его развитие зависит от частоты его использования людьми.
Согласитесь, иногда сложно объяснить, почему необходимо использовать данное дополнительное значение слова, а не основное. Это ощущает настоящий переводчик, но этого не чувствует машина.
Обсудим эту тему в комментариях?
По вашему мнению, заменят ли простые и быстрые программы привычный труд работника? Как вы считаете, что можно отнести к самому важному на нашем поприще?
Развитие компаний, выпуск новых продуктов и создание новых бизнесов происходит сегодня быстрее, чем когда-либо. Это основная движущая сила многих экономик. Однако немногие замечают, с какой огромной скоростью растет объем генерируемого контента: компании разрабатывают стратегии, документы, кейсы и тонны других материалов. При этом сервисы и продукты создаются во всем мире, и их создатели стараются преуспеть не только в родном регионе. Чтобы получить внимание массового пользователя независимо от локации, нужно позаботиться о коммуникации с потребителем – как минимум иметь контент на понятном большинству английском языке. А если компания решила выходить на определенный рынок, то и переводить его на родной язык этой страны.
Некоторые исследования показывают, что вероятность покупки в среднем в два раза выше, если продукт или услуга переведены на родной язык потребителя, чем когда информация дается только на английском. Если же речь идет о серьезных глобальных амбициях, то для эффективной коммуникации с 80% потребителей в онлайне потребуется локализация как минимум на 12 языков. Увеличение количества языков локализации вместе с огромной скоростью роста «продуктового» контента – основные драйверы роста для глобальной отрасли услуг и технологий перевода. Сегодня объем этого рынка оценивается более чем в $30 млрд и продолжает расти хорошими темпами.
В то же время бюджеты на локализацию растут медленнее, чем объемы контента, требующего перевода. Одно из решений – машинный перевод (MT – Machine Translation), который существенно экономит время и ресурсы. Его сегодня используют практически все крупные IT-корпорации и ряд e-commerce проектов: для онлайн-продажи лучше иметь сырой и некачественный с профессиональной точки зрения перевод, чем вообще никакой.Системы машинного перевода стали появляться более полувека назад, но тогда эти проекты казались нерентабельными. Многие и сегодня продолжают относиться к нему скептически, не воспринимают технологию всерьез, особенно в России. Этому есть объяснение: несмотря на большой технологический прогресс в этой области, качество машинного перевода неоднородно. Многим знакомы смешные ошибки перевода, возникающие ввиду применения неподходящих МТ-систем или того, что контент впоследствии не редактировался.
Кроме того, долгое время ожидания в отношении MT были завышенными, от него ждали «человеческого» качества перевода. Да и оценивалось это качество субъективным образом, по принципу «нравится/не нравится». Но машинный перевод необязательно должен быть таким же «гладким», как если бы перевод выполнял человек. С другой стороны, в последнее время компании учатся работать с системами MT, настроенными на определенные темы и типы документов. Это заметно улучшает качество перевода по сравнению с общедоступными публичными системами, хотя и они показывают уже вполне приличный результат.
Проще говоря, MT в ближайшие десятилетия, а может, и вообще никогда, не заменит профессиональных переводчиков, но сильно повышает производительность их труда. Например, профессиональный переводчик может переводить в день 2,5 тысячи слов с нуля. Наши замеры показывают, что, если ему дать хорошо настроенный машинный перевод и удобную программную среду, в которой легко работать с MT и редактировать его, скорость работы человека может повыситься до 4,5–7 тысяч слов в день, что раньше казалось немыслимым. Экономический эффект очень значителен.
Есть и более простой, так называемый непрофессиональный сценарий, в котором также много практической пользы: МТ используется просто для понимания текста (в документе, письме, на сайте и т.д.). Получая машинный перевод документа практически мгновенно, сотрудник компании может сразу принять необходимые бизнес-решения, в том числе решить, нужен ли ему этот документ в профессиональном переводе. Статистика показывает, что при такой практике до 70% документов может никогда не дойти до профессионального перевода – будет ясно, что они не настолько важны.
И в первом, и во втором сценарии MT работает на повышение эффективности бизнеса, и достаточно часто ведущие компании используют оба сценария одновременно: один – для непрофессионального оперативного перевода (для понимания общего смысла), второй –для профессионального перевода важных документов большого объема.
Как бы ни развивались лингвистические технологии, пока они не выходят на уровень идеального перевода. К этому, собственно, и перестали стремиться. Поэтому будущее (и прогрессивное настоящее) за совместной работой людей и машин.
Читайте также: