Как называется процесс перевода текстов с одного языка на другой с помощью компьютерной программы
Словари необходимы для перевода текстов с одного языка на другой. В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и так далее), причем каждый из них может содержать десятки тысяч слов.
В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц, где поиск нужного слова является достаточно трудоемким процессом.
Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности.
1) Могут являться многоязычными, так как дают пользователю возможность выбрать языки и направление перевода (например, англо-русский, испано-русский и так далее).
2) Могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).
3) Обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.
4) Могут являться мультимедийными, то есть предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка.
Электронные словари можно устанавливать как самостоятельные программы, пользоваться on-line сервисами в сети Интернет.
Для перевода текстовых документов применяются программы-переводчики .
Компьютерные переводчики могут оказать огромную помощь в обработке информации на иностранных языках по различным отраслям знаний.
В настоящее время наиболее распространенными программами машинного перевода являются системы PROMT, Stylius, Сократ, Magic Gooddy и другие, которые обеспечивают перевод текстов со многих иностранных языков на русский и с русского языка на иностранные. Эти системы являются не простыми пословными программами перевода, а профессиональными электронными переводчиками, синтезирующими выходной текст на достаточно ясном, грамматически правильном языке с учетом морфологических, синтаксических и семантических связей.
Основные требования к компьютерным переводчикам являются оперативность, гибкость, скорость и точность.
Содержание
Формы организации взаимодействия ЭВМ и человека при машинном переводе
- С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
- С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
- С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
- Смешанные системы (например, одновременно с пред- и постредактированием).
Автоматизированный перевод
Автоматизированный перевод предполагает такие формы взаимодействия:
- Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных словарей.
- Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.
Существуют два принципиально разных подхода к построению алгоритмов машинного перевода: основанный на правилах (rule-based) и статистический, или основанный на статистике (statistical-based). Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ в России, SYSTRAN во Франции, Linguatec в Германии и др.) [1] Ко второму типу относится популярный сервис Переводчик Google [2] , а также новый сервис от ABBYY [3]
Статистический машинный перевод
История машинного перевода
Мысль использовать ЭВМ для перевода была высказана в 1947 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 250 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.
К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:
- MARK (в Департаменте иностранной техники ВВС США);
- GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.
Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.
Качество перевода
Добавьте ссылки на источники, в противном случае он может быть удалён.Дополнительные сведения могут быть на странице обсуждения.
Компьютерный перевод — процесс перевода текстов с одного естественного языка на другой при помощи специальных компьютерных программ. Так же называется направление научных исследований, связанных с построением подобных систем.
Термины «машинный» и «автоматизированный» перевод первоначально соответствовали процессам создания универсальных переводческих программ, однако в ходе развития этой области и осознания проблем, связанных с реализацией данной цели, они обрели совсем другое значение — программа является чисто инструментальной - помогает человеку переводить тексты. Отсюда и новое название данных программ CAT - computer-aided/assisted translation.
Компьютерный перевод предполагает такие формы взаимодействия:
· Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных словарей.
· Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё не уложившееся в схему отдает человеку.
Компьютерный перевод технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в определенной редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать.
Большинство средств компьютерного перевода построены на основе концепции памяти перевода (translation memory) — простой базы данных, каждая запись которой представляет собой единицу (предложение или абзац) параллельных текстов (как правило, на двух языках). Такая база данных хранит предыдущие переводы с целью их возможного повторного использования и решения задач быстрого поиска по содержимому.
Несмотря на то, что программы, оснащенные памятью перевода, называются системами автоматизированного перевода (CAT, computer-aided/assisted translation), их не следует путать с программами машинного перевода (machine translation) — память перевода ничего не переводит сама по себе, в то время как машинный перевод основан на генерации переводов по результатам грамматического разбора исходного текста.
Примерами таких программ компьютерного переводу могут послужить:
· Trados — система автоматизированного перевода, первоначально (с 1992 года) разработанная немецкой компанией Trados GmbH. Является одним из мировых лидеров в классе систем Translation Memory (TM, Память переводов). Система Trados состоит из модулей, предназначенных для перевода текстов различного формата: документов Microsoft Word, презентаций PowerPoint, текстов в формате HTML и других метаданных, документов FrameMaker, InterLeaf и др., а также для ведения терминологических баз данных (модуль MultiTerm). Концепция Translation Memory предполагает выявление в переводимом тексте фрагментов, переводы которых уже имеются в базе данных переводов, и за счет этого сокращение объёма работы переводчика. Фрагменты, оставшиеся непереведёнными, передаются дальше для ручной обработки переводчику или системе машинного перевода (Machine Translation, MT).
На основе новой технологии компания ПРОМТ выпускает линейку программных продуктов PROMT XT:
1. PROMT XT Office — полное решение решение для обработки мультиязычных документов в современном офисе. Стоимость продукта в базовой комплектации составляет 300 долларов.
2. PROMT XT Standard — система для оперативного перевода документов и электронной почты. Стоимость продукта в базовой комплектации составляет 99 долларов.
3. PROMT Internet XT — программа для онлайнового перевода веб-сайтов и поисковых запросов в Интернете. Стоимость продукта в комплектации Premium составляет 49 долларов.
«Выпуск новой линейки продуктов PROMT XT — это большая радость для нас. Нам удалось сделать серьезный рывок в развитии технологии автоматизированного перевода. Новая технология PROMT XT — предмет нашей гордости, является на сегодняшний день абсолютным мировым лидером по качеству перевода» — заявила Светлана Соколова, президент компании ПРОМТ. «На основе новой технологии работают все три продукта новой линейки PROMT XT. Хотелось бы подчеркнуть, что данная линейка продуктов ориентирована на российский рынок. Мы планируем также выпустить всю линейку PROMT XT в иностранной локализации для всех 17 направлений перевода, которые предлагает на сегодняшний день наша компания. Кроме того, в наших ближайших планах — выпуск профессиональной версии PROMT XT Professional и модернизация на основе новой технологии продуктов корпоративной линейки, включая сетевую версию.»
О компании ПРОМТ
ПРОДУКТ ПРОИЗВОДИТЕЛЬ ПРИМЕЧАНИЕ
Deja vu Atril Это сравнительно недорогой и самый многофункциональный продукт. Использующие его переводчики подают заявки на включение в него тех или иных полезных функций и эти заявки оперативно выполняются.
Translation Manager IBM По отзывам специалистов, это самая эффективная, хотя и не очень дружественная к пользователю программа.
SDLX SDL Недавно появившийся продукт, который быстро совершенствуется.
Transit Star Лучше других продуктов приспособлен к работе с кириллицей. Немаловажное достоинство — наличие российского дистрибьютора.
Translation’s Workbench Trados В этой программе в качестве служебного редактора используется MS Word. Учитывая так же, что Microsoft приобрела акции компании Trados и планирует использовать ее программное обеспечение в качестве внутреннего хранилища локализованных компонентов, у программы Translation’s Workbench (именуемой в просторечии Trados) есть хорошие шансы стать международным стандартом.
Разумеется, у переводческих накопителей есть и свои недостатки. Помимо уже упоминавшихся ограничений на переводимые тексты, это прежде всего высокая цена большинства TM-продуктов (тысяча и более долларов), а также отсутствие стандарта. Все чаще, приглашая на работу переводчиков, заграничные заказчики оговаривают в качестве обязательного условия наличие у претендента той или иной TM-программы. Однако в объявлениях встречаются разные названия, поэтому, купив продукт, ориентированный на одного работодателя, вы можете не удовлетворять требованиям другого. Причем на овладение каждым из продуктов требуется потратить не только деньги, но и время.
При оценке затрат на эти программы следует учитывать, что переводческие пакеты продаются в виде набора модулей (утилиты создания и ведения базы данных, редактор, фильтры для работы с различными текстовыми процессорами и т.п.), часть из которых могут быть лично вам не нужны. Поэтому нужно внимательно следить за тем, что включено в базовый комплект, а за что вам придется платить отдельно.
Аппаратные аппетиты рассматриваемого класса продуктов вполне предсказуемы (чем всего больше, тем — как всегда — лучше). Причем, кроме всего прочего, TM-продукты предъявляют повышенные требования и к монитору. Поскольку друзья переводчика являются многооконными программами, для работы с ними желательно иметь большой монитор. Специалисты советуют не жалеть день-ги хотя бы на 17-дюймовый.
В мою задачу не входит подробное сравнение продуктов различных фирм — я только хотела обратить внимание читателей на новый пласт программного обеспечения. Те же, кто хотят подробнее ознакомиться со спецификой различных программ, могут посетить сайты ведущих производителей TM-продуктов.
Не могу удержаться и не упомянуть еще один продукт — WordFisher. Его нельзя отнести к категории широко распространенных, и я ни разу не видела, чтобы заказчики требовали его наличия. Однако у этой программы, составленной венгерским переводчиком Тибором Кёрнеи, есть два существенных достоинства: простота и дешевизна. WordFisher является комплектом макрокоманд для перевода документов в MS Word и распространяется как shareware по цене всего 30 долларов.
И последняя «информация к размышлению»:
Опрос, проведенный Международным институтом переводчиков, показал, что пока только около 15% переводчиков используют в своей работе переводческие накопители; однако среди переводчиков с высокими доходами доля пользователей TM-продуктов составляет 40–50%.
НЕДАВНО (см. Результат меняется от перестановки, или Что такое хорошо и что такое плохо?) была опубликована статья Н. Шаховой, посвященная TM-программам, или "накопителям переводчика" (возможно, более удачным является вариант "накопители переводов"), — теме, очень редко затрагиваемой на страницах компьютерных изданий. Продолжая эту тему, предлагаем вам обзор TM-программ, доступных в настоящее время на рынке. Напомним, что речь идет об интерактивных инструментах, позволяющих переводчику накапливать в специальной базе данных (БД) эквивалентные текстовые фрагменты на двух языках, чтобы в дальнейшем быстро находить образцы для перевода новых текстов. В качестве фрагментов могут выступать слова, словосочетания и целые фразы. При работе над текстами, близкими по жанру и тематике, такие инструменты по мере пополнения БД все больше упрощают и ускоряют перевод.
Мастер сопоставления параллельных текстов в DejaVu |
Итак, основные функции TM-программы — пополнение БД парных фрагментов и анализ новых текстов для их поблочного перевода. Программа сегментирует переводимый текст (выделяет фразы или обособленные обороты) и сличает полученные сочетания с элементами БД, в случае совпадения предлагая переводчику подставить готовый перевод фрагмента в конечный текст (или же подставляя его автоматически). Во многих программах предусмотрен "нечеткий" (fuzzy) поиск.
Стандартной для этого класса продуктов стала возможность вести словари терминов и непереводимых имен, что очень важно для работы с текстами из узкой предметной области. Обычно ассортимент поддерживаемых TM-системами языковых пар довольно обширен; в последнее время все большее число разработчиков декларируют поддержку "двунаправленных языков" (bi-directional languages). Термин этот представляется не совсем корректным. Правильнее было бы в данном случае говорить не о языках, а скорее о текстах, содержащих фрагменты на языках с разным направлением письма (например, о смеси английского с арабским или ивритом).
Сама по себе идеология накопителей переводов не подразумевает использования развитых лингвистических технологий, однако в наиболее совершенных TM-программах имеются встроенные морфологические модули и средства проверки орфографии для нескольких языков, а также относительно интеллектуальные средства сопоставления (aligning) параллельных текстов с целью автоматического формирования парных фрагментов на двух языках. Процедуры сопоставления в разных программах различны, но, как правило, они включают элементы диалога и иногда требуют модификации одного из параллельных текстов (особенно если имеет место вольный перевод).
Большинство программ совместимы с популярными текстовыми процессорами и издательскими пакетами, с распространенными форматами типа RTF, PDF и HTML. Почти все TM-системы позволяют для удобства группировать рабочие файлы, БД и терминологические словари в отдельные "проекты".
Накопители переводов — дорогое профессиональное средство. Как правило, разработчики предлагают как корпоративные, сетевые, так и индивидуальные (freelance) версии своих TM-систем. В первом случае (особенно при поставке многофункциональных инструментальных комплексов) цена может превышать 1000 долл., во втором она составляет несколько сот долларов. Программы нередко защищаются с помощью аппаратных ключей.
Панель SDLX обеспечивает удобный доступ ко всем функциям |
Trados 3.0
Версия Trados 3.0 совместима с Windows 2000, Office 2000 (Word 2000, PowerPoint 2000), издательскими пакетами FrameMaker, Interleaf, PageMaker, QuarkXPress и Ventura, языками XML, SGML и HTML. При инсталляции Trados встраивает свой инструментарий в панель инструментов и меню Word. Тесная интеграция с Office позволяет при переводе текстов в Word автоматически пополнять базу данных TM.
Программа автоматически анализирует тексты, разбивая их на сегменты, которые можно затем экспортировать в базу данных TM. Ограничителями сегментов по умолчанию служат табуляторы, маркеры абзацев и некоторые знаки препинания. Сегменты, не имеющие аналогов в БД, можно либо включить туда, снабдив переводом, либо поместить в словарь терминов. После сегментации текста функция автоматизированного перевода предлагает пользователю фрагменты для поблочного формирования перевода.
Инструментарий DejaVu
Как и в других TM-системах, в DejaVu есть средство работы с терминами, кроме того, добавлена возможность запрещать перевод отдельных фраз в исходных текстах.
Панель управления WordAlign |
Программа совместима с многочисленными текстовыми редакторами и верстальными программами, в том числе Word, PowerPoint, FrameMaker, PageMaker, QuarkXPress, Interleaf, а также TM-программами IBM и Trados; поддерживаются форматы RTF, Help Contents, Java Properties files, HTML (включая ASP), HTML Help, SGML, RC, C/C++.
DejaVu позволяет в переводческих проектах выбирать языковые пары из обширного списка языков мира; имеется встроенное средство проверки орфографии для десятка европейских языков. В комплект DejaVu входит также модуль TermWatch, который обеспечивает доступ к терминологическому словарю из среды приложений, работающих с иноязычными текстами. Программа снабжена удобным справочником.
Все модули DejaVu используют общий OLE-сервер, на его базе можно разрабатывать приложения, содержащие вызовы функций API.
Цена DejaVu — от 790 до 990 долл. в зависимости от числа приобретаемых лицензий. На Web-узле разработчика можно загрузить бесплатную 30-дневную демоверсию программы.
SDLX 3.0
SDLX совместима с форматами документов HTML, RTF, MIF и TXT; предусмотрен импорт и экспорт баз данных TM различных форматов, включая Trados. Важным достоинством программы является возможность обрабатывать (анализировать и переводить) файлы в пакетном режиме.
На узле компании SDL можно загрузить демоверсию SDLX с ограниченной функциональностью. Полная корпоративная версия программы стоит 1000 долл. (она защищается аппаратным ключом), версия Light — 399 долл., версия для одиночных пользователей (без функций анализа текста, автоматического перевода и фильтров для SGML и XML) — 350 долл.
Transit и TermStar
ТМ-программа Transit Professional использует технологию "нечеткого индекса" (fuzzy index): при поиске фрагментов в базе данных накопленных переводов ищутся сочетания, приблизительно соответствующие выделенному фрагменту.
Transit работает практически со всеми европейскими языками (включая русский), турецким, арабским, китайским и японским, поддерживаются также "двунаправленные" тексты.
|
Благодаря наличию фильтров импорта-экспорта программа совместима с множеством текстовых процессоров, издательских и прочих пакетов (Excel, PowerPoint, Word, WordPerfect, AmiPro, Interleaf, FrameMaker, PageMaker, Xyvision, Ventura, QuarkXPress), а также с распространенными форматами (HTML, SGML, XML, RTF).
Вместе с Transit распространяется программа TermStar — многоязычный менеджер терминологических гипертекстовых словарей, взаимодействующий с TM-средой и пригодный для многопользовательской работы.
TM-инструменты фирмы STAR поставляются в нескольких вариантах комплектации. Вариант Transit Professional 3.0, включающий TermStar, стоит 1245 евро; вариант Workstation, не имеющий функций импорта и экспорта, — 695 евро. Корпоративный пакет Translation Center Suite стоит около 4 тыс. евро, а его вариант с сетевыми возможностями Corporate Suite 3.0 — около 8 тыс. евро.
WordFisher 4
Независимый переводчик из Венгрии Корней Тибор создал недорогую (всего 30 долл.) TM-программу WordFisher. Программа, реализованная в виде макроса, интегрируется с Microsoft Word (версии 6 и выше) и обладает многими функциями, свойственными профессиональным пакетам этого класса: автоматически создает папку для хранения файлов переводческого проекта, формирует таблицу параллельных фрагментов и позволяет искать в исходном документе текстовые элементы из накопителя TM. Модуль управления глоссариями служит для работы со словарем терминов. Для автоматического построения БД накопителя переводов на основе сопоставления параллельных текстов служит дополнительный макромодуль WordAlign, более простой и быстрый, чем аналогичные средства в составе пакетов Trados, DejaVu и Star.
Perhaps the history of the errors of mankind, all things considered, is more valuable and
interesting than that of their discoveries. Truth is uniform and narrow; it constantly exists,
and does not seem to require so much an active energy, as a passive aptitude of the soul in
order to encounter it. But error is endlessly diversified; it has no reality, but is the pure and
simple creation of the mind that invents it. In this field the soul has room enough to expand herself,
to display all her boundless faculties, and all her beautiful and interesting extravagancies and absurdities.
(с) Benjamin Franklin
Взгляд на системы машинного перевода изнутри
Знание иностранных языков - это не только полезный навык в повседневной жизни, но также одно из основных требований при приеме на работу. Однако сегодня одного только знания иностранных языков бывает недостаточно, поскольку объем информации, которую необходимо ежедневно переводить, существенно возрос. Вместе с тем, эта задача успешно решается, и ни для кого не составляет труда всего за несколько секунд перевести контракт или контент иностранного сайта. А все потому, что переводом в этом случае занимается программа-переводчик: человек не успевает и глазом моргнуть, а перевод уже готов.
Машинный (или автоматизированный) перевод – именно так называется технология, с помощью которой компьютерная программа осуществляет связный перевод текста с одного языка на другой. Технология машинного перевода (МП) как научное направление имеет уже почти вековую историю, а первые идеи автоматизации переводческого процесса появились еще в XVII столетии. В 1954 году в США состоялся так называемый Джорджтаунский эксперимент, на котором была представлена первая версия электронного переводчика: программа имела словарный запас всего в 250 слов и действовала на основе шести правил.
Сегодняшние программы-переводчики имеют гораздо более широкий «кругозор» и действуют на основе более совершенных переводческих технологий. Системы перевода активно используются во всем мире в случаях, когда требуется быстро понять смысл текста или часто переводить большие объемы информации. Некоторым разработчикам на сегодняшний день удалось достичь весьма приемлемого качества перевода по отдельным языковым направлениям. В этом материале мы предлагаем посмотреть, как выглядит процесс перевода изнутри, каким образом программе удается «понять» иностранный текст и перевести его на другой язык.
Две стороны МП
Статистический метод МП действует совсем по иному принципу. В его основе лежат математические методы для получения перевода. Точнее сказать, весь принцип работы подобной системы основан на статистическом вычислении вероятности совпадений фраз из исходного текста с фразами, которые хранятся в базе системы перевода.
Правила перевода изнутри
Как уже было сказано выше, метод машинного перевода, основанный на правилах, называется традиционным, поскольку на его основе работает большинство систем автоматизированного перевода. В России с помощью традиционного способа МП разрабатываются программные продукты компании ПРОМТ - единственного в нашей стране производителя программ-переводчиков. Самое время рассказать об этом методе МП поподробнее.
Работа системы машинного перевода, основанной на правилах, состоит из нескольких этапов. Сначала система осуществляет морфологический анализ слов (указывает род, число, лицо и другие морфологические характеристики для каждого слова). Кроме того, программа фиксирует полную информацию по многозначным словам (тем словам, которые могут относиться к разным частям речи или иметь разные значения).
Затем происходит объединение отдельных слов в группы: именные (где главным словом является существительное, а зависимые от него слова определяются по идентичным морфологическим характеристикам), глагольные (главное слово – глагол) и др. Кроме того, в этот момент система может решить вопрос многозначности для некоторых слов в зависимости от их контекста.
На следующем этапе программа приступает к определению членов предложения и их роли в предложении, границ и типа связи между простыми предложениями. Сначала она ищет границы простых предложений, которые определены знаками препинания. Затем определяет главные члены, причем сначала система ищет сказуемое и только потом подлежащее перед ним (если перед сказуемым подлежащего нет, программа ищет его за сказуемым или делает вывод, что подлежащее отсутствует (например, в безличных предложениях)). Завершив поиск главных членов предложения, система определяет сферы их влияния (слова и группы слов, зависимые от подлежащего и от сказуемого). Все группы, которые система не смогла отнести ни к сфере влияния подлежащего, ни к группе сказуемого, считаются обстоятельствами.
И, наконец, на заключительной стадии работы происходит окончательное согласование всех членов предложения и построение предложений с учетом требований грамматики выходного языка. Элементы согласуются внутри групп, а также уточняется их зависимость от подлежащего или сказуемого и подтверждается порядок слов в предложении.
Таким образом, процесс перевода системы логически понятен: происходит поиск языковых эквивалентов, их объединение по морфологическим признакам, синтаксический анализ членов предложения и окончательный синтез предложения на выходном языке.
Статистический метод МП работает совсем иначе. Здесь главным является наличие как можно большего количества парных фрагментов текста и вычисление наибольшей вероятности их употребления. Программа вычисляет наиболее вероятную последовательность слов выходного языка, которую она считает наиболее соответствующей переводу исходного текста.
На данный момент очевидным является то, что системы традиционного метода МП справляются с переводом текстов лучше, чем статистические системы. Примеры сравнения качества перевода двух методов МП представлены в Таблице 1.
Таблица 1. Сравнение традиционного и статистического методов МП.Статистика на подходе
Однако, несмотря на явное, на сегодняшний день, преимущество традиционного метода, статистический машинный перевод в последнее время более явно заявляет о себе. Самыми продуктивными разработками в этой области занимается компания Google, которая предлагает онлайновый сервис перевода на своем портале. Google заявляет о преимуществе именно статистического метода перевода и видит причину успеха в максимально обширных словарных базах, имеющих необходимое количество сегментов текста для их правильного перевода. Однако пока успехи в этой области незначительные. Перевод, выполняемый сервисом, постоянно меняется, но далеко не всегда в лучшую сторону (см. примеры в Таблице 2). Как видно из примера, одно и то же выражение (attorney's fees) было переведено совершенно по-разному (и спустя месяц перевод не выглядит корректным). Кроме того, система часто неправильно распознает артикли и не всегда согласует слова между собой по морфологическим признакам.
Возможность быстрого пополнения словарных баз, безусловно, является преимуществом статистического метода МП. Однако у этого обстоятельства есть и обратная сторона: большое количество информации требует немалого объема памяти для хранения. Возможно, в будущем, эту проблему удастся успешно решить, но на данный момент она существует.
Нюансы технологии машинного перевода, основанной на правилах (традиционного метода МП), не позволяют разработчикам так же быстро публиковать изменения, как это делает Google. Работа в рамках традиционного метода МП заключается, главным образом, в совершенствовании самого механизма перевода, разработке новых алгоритмов. Однако эти усилия, пусть и не столь быстрые, оправдывают себя. Например, последняя версия уже упоминавшейся системы PROMT представляет качество перевода на порядок выше, чем ее предшественница.
Повод улыбнуться
Однако пока качество перевода, предлагаемое традиционной системой МП и статистической системой, нельзя назвать идеальным. Особенно сложным для программы-переводчика является перевод художественных текстов, где велика вероятность нестандартного порядка слов в предложении, и от переводчика требуется понимание иносказательного смысла выражения. Поскольку программа-переводчик пока не обладает образным мышлением, перевод таких предложений выглядит забавно. Некоторые примеры забавных переводов системами МП приведены в Таблице 3.Однако существует немало примеров электронных переводов, которые невозможно отличить от работы, выполненной человеком-переводчиком. Например:
Таблица 4. Примеры удачных переводов, сделанных системой МП.
Что дальше?
В процессе тестирования систем МП стало ясно, что возможность быстрого пополнения словарных хранилищ статистической системы на данный момент не дает нужного результата. Однако, вполне возможно, это вопрос времени. В то же время разработчики традиционных систем МП сегодня могут гарантировать перевод высокого, но не идеального качества.
В настоящее время существует идея объединить оба метода машинного перевода, в результате чего, возможно, удастся создать систему нового поколения, которая совместит преимущества каждого метода и сможет выполнять перевод, максимально близкий к идеальному. Некоторые производители уже приступили к разработкам в этой области. А нам остается ждать от них качественно новых результатов.
Автор выражает благодарность компании ПРОМТ за консультации при создании материала.
Читайте также: