В основе этого материала — перевод фрагмента статьи Джеймса Хэдли, опубликованной в журнале Counterpoint (оригинал: https://ceatl.eu/wp-content/uploads/2023/04/Counterpoint_2020_04_article_04.pdf). Работа над локализацией, терминологией и стилистической адаптацией текста велась при поддержке переводческой компании English Geeks.
В первой части мы проследили путь машинного перевода от дешифровальных машин Блетчли-парка до нейронных сетей, имитирующих работу человеческого мозга. Мы убедились, что в технических текстах ИИ способен выдавать результат, неотличимый от работы профессионала. Однако именно в литературе иллюзия всемогущества алгоритмов разбивается о суровую реальность.
Предыдущую часть статьи вы можете найти в интернете по заголовку «Литературный машинный перевод: неужели компьютеры отнимут у нас работу? (Часть 1)».
А теперь давайте разберемся, почему при переводе стихов и романов даже самые совершенные системы теряют квалификацию, и как переводчики превращают ИИ из угрозы в полезный инструмент.
«Передать авторский стиль удается не всегда»
Хотя нейронные системы чрезвычайно эффективны при переводе определенных типов текстов, особенно шаблонных, с короткими предложениями, их возможности по-прежнему весьма ограничены. Это связано с техническими особенностями, лежащими в основе таких систем. Для обучения требуется большой корпус параллельных предложений, и система работает тем лучше, чем ближе обучающие данные к тем предложениям, которые ей предстоит переводить. Например, система, обученная на параллельных предложениях из автомобильных инструкций, скорее всего, будет отлично переводить автомобильные инструкции, но заметно хуже — кулинарные книги. Решить эту проблему намного сложнее, чем «просто» обучить систему «на всех возможных типах текстов», поскольку машина не умеет различать, с каким именно типом текста она имеет дело в конкретный момент. Поэтому обучение на широком спектре текстов, скорее всего, приведет к тому, что результаты для каждого из них будут слабее, чем при специализированном обучении.
Миллионы параллельных предложений
Для большинства технических текстов эта проблема не слишком серьезна, поскольку общепринятый стиль кулинарных книг не так уж далек от стиля автомобильных руководств. Поэтому, хотя система, обученная на разнообразных технических текстах, статистически может работать немного хуже, чем узкоспециализированная, разница обычно недостаточно велика, чтобы вызвать серьезные проблемы. Но для художественной литературы это не так.

Изображение взято с оригинала статьи «Literary machine translation: Are the computers coming for our jobs?»
Дело не только в том, что стиль художественной литературы очень далек от стиля технических текстов, но и в том, что сам он очень сильно различается в зависимости от автора, эпохи, жанра и формы литературы. Несмотря на то, что и сонет, и лимерик — это стихи, разница между ними огромна. Несмотря на то, что «Гарри Поттер», и «Властелин колец» относятся к жанру фэнтези, это совершенно разные произведения. Проблема, затрудняющая использование систем машинного перевода, заключается в том, что для значительной части литературы авторские стили не являются взаимозаменяемыми, и отсутствует прецедент, на основе которого можно было бы построить систему. Если, например, существует множество параллельных примеров контрактов на двух языках, то что можно считать «параллелью» для Данте на суахили или для Толстого на вьетнамском? Ближайшим вариантом был бы человеческий перевод Данте на суахили или Толстого на вьетнамский. Однако для эффективной работы обучающему корпусу нужны миллионы параллельных предложений — это сотни книг, гораздо больше, чем обычно создает один автор за всю свою жизнь. И с практической точки зрения, если «человеческие» переводы всех этих текстов уже существуют, зачем обучать систему переводить те же самые тексты тем же самым образом?
Корпус не поможет со стилем текста
Может показаться, что авторский стиль — не самая важная проблема, ведь главное — это «смысл». Однако в литературе и в машинном переводе форма и содержание неразрывно связаны. Это наглядно проявилось в эксперименте, где мы пытались перевести некоторые стихотворения из «Тысячи и одной ночи» с помощью системы, обученной на единственном доступном параллельном корпусе для арабско-английского перевода, состоящем в основном из переводов Корана и данных ООН. Хотя подавляющее большинство слов из стихов встречалось в обучающих данных, стиль текстов настолько отличался от того, на чем была обучена система, что в большинстве случаев она просто не смогла выдать результат.
С этим связан и другой момент: современные системы машинного перевода работают на уровне отдельных предложений, переводя каждое из них изолированно и «забывая» о нем при переходе к следующему. Для технических текстов это, как правило, не представляет большой проблемы. Но в литературе, где идеи, метафоры, аллюзии и образы могут возвращаться через предложения, абзацы или даже главы, машинам еще очень далеко до уровня, обеспечиваемого профессиональным литературным переводчиком.
Программное обеспечение как помощник литературного переводчика
По этим и многим другим причинам разработчики инструментов машинного перевода обычно весьма осторожны в ожиданиях относительно возможностей своих систем и сроков их развития. Поэтому сегодня мы наблюдаем работу над инструментами, специально предназначенными для помощи литературным переводчикам. Хотя некоторые литературные переводчики уже используют CAT-инструменты, такие как MemoQ, многие из них считают их менее полезными, чем технические переводчики. Тем не менее, такие инструменты способны помогать именно в тех аспектах, которые особенно важны для перевода литературы.
Например, проект QuantiQual исследует опосредованные литературные переводы, выполненные человеком и инструментами машинного перевода. Опосредованные переводы — это переводы переводов. Если перевод напрямую с языка A на язык C невозможен, может использоваться промежуточный или «мостовой» перевод на языке B. Хотя споры о допустимости такой практики долгое время заслоняли тот факт, что она широко применялась и применяется, проект рассматривает то, как она может способствовать распространению знаний и литературы на языках, которые исторически оставались без внимания. В настоящее время проект QuantiQual изучает, как сильные стороны машинного перевода — использование широкого спектра источников информации, классификация технических деталей и выявление закономерностей — могут помогать переводчикам в работе. Команда ищет способы помочь переводчику, которому, например, нужно перевести стихи из «Тысячи и одной ночи» на другой язык.

Фото: habr.com
«О серьезной угрозе для литературных переводчиков говорить пока рано»
Они создают систему, которая не будет сама переводить поэзию, но предоставит переводчику ключевую информацию об исходном тексте «с первого взгляда», позволяя работать максимально эффективно. Например, программа может указать, к какому типу рифмовки относится данный текст, показать места рифм, аллитераций и ассонансов, сообщить количество слов и среднюю длину предложений, а также предоставить тезаурусоподобные глоссарии на языке перевода для каждого слова в стихах. Таким образом, именно человек выбирает наиболее подходящие варианты и создает перевод, а программа помогает ему, позволяя сосредоточиться на создании текста, а не на поиске и сборе вспомогательной информации из множества источников. По сравнению с таким чрезвычайно сложным типом текста, адаптация аналогичной системы для работы с романами — например, для помощи в сохранении элементов стиля, таких как длина предложений, использование местоимений или характерный словарь, — представляет собой относительно небольшой шаг.
Поэтому, хотя принцип «никогда не говори никогда» остается разумным, стоит помнить, что пессимистично настроенные переводчики предсказывают появление своих механических заменителей еще с 1954 года. Применительно к переводоведению и машинному переводу за последние семьдесят лет стало ясно, что чем больше мы понимаем процесс перевода, тем очевиднее становится его сложность. Серьезная угроза для профессии литературного переводчика все еще далека, но уже начинают появляться инструменты, способные помогать таким переводчикам в работе.
Дата публикации: 05.03.2021