Не следует путать с Автоматизированный перевод Эта статья о переводчиках компьютерных программах о переводчиках людях см

Маши́нный перево́д — процесс автоматического перевода текста или речи с одного естественного языка на другой, осуществляемый искусственным интеллектом без участия человека. Ранние попытки использовать компьютеры для перевода строились на основе запрограммированных словарей и лингвистических правил, более современные строятся на основе вероятностного подхода — это статистический и (нейронный машинный перевод).

История машинного перевода

Идеи алгоритмов для перевода с одного языка на другой предшествовали изобретению компьютера. В середине 1930-х годов французский инженер армянского происхождения Жорж Артцруни и советский учёный и педагог (Пётр Смирнов-Троянский) независимо друг от друга пытались запатентовать «машины для перевода». Более проработанный вариант Смирнова-Троянского включал в себя, кроме автоматического двуязычного словаря, схему для кодирования межъязыковых грамматических ролей, основанную на эсперанто и общие концепции анализа и синтеза текста. Тем не менее, идеи Смирнова-Троянского не получили известности до 1950-х годов.

Мысль использовать ЭВМ для перевода была высказана в 1947 году в США — её сформулировал математик ^[англ.], работавший в то время в (Фонде Рокфеллера), в письме (Норберту Винеру). В июле 1949 года Уоррен подготовил меморандум, в котором свёл существующие на тот момент предложения в области машинного перевода — они строились на базе накопленных во время Второй мировой войны наработок в области криптоанализа шифров, теории информации Клода Шеннона и идей о неких универсальных принципах, на которых строятся все естественные языки. В течение следующих лет в нескольких американских университетах начались работы по созданию систем машинного перевода на базе ЭВМ. Первая публичная демонстрация такой системы – так называемый (Джорджтаунский эксперимент) — состоялась в 1954 году. Она была создана на базе сотрудничества между компанией IBM и Джорджтаунским университетом. Хотя Джорджтаунский эксперимент использовал очень ограниченный словарь и простейшую грамматику, он привлёк к себе огромный интерес и подтолкнул учёных в разных странах мира к исследованиям в этой области.

Ранние системы представляли собой просто большие двуязычные словари и системы правил, по которым для каждого слова из целевого языка подбирался подходящий эквивалент в другом языке. Тем не менее, учёные быстро осознали, что синтаксические правила для выстраивания слов в правильном порядке становятся непомерно сложными. Машинный перевод требовал более систематических методов синтаксического анализа. Исследования в области машинного перевода в 1950-1960-х годах проводились под влиянием новых лингвистические теорий, особенно моделей (формальных грамматик), как трансформационно-генеративная грамматика, (грамматика зависимостей) и стратификационная грамматика. С середины 1950-х по середину 1960-х годов исследователи в области машинного перевода сохраняли оптимизм, надеясь на прорыв в самом близком будущем. В начале 1960-х годов функционировало несколько работающих систем машинного перевода — так, Управление иностранных технологий ВВС США эксплуатировал компьютер Mark II, созданный совместно IBM и Вашингтонским университетом; разработки Джорджтаунского университета использовали (Комиссия по атомной энергии США) и (Европейское сообщество по атомной энергии) в своём центре в Италии.

В 1964 году правительство США созвало специальную Консультативную комиссию по автоматической обработке языка (^[англ.]). Эта группа в 1966 году опубликовала отчёт, в котором делала вывод о нерентабельности систем машинного перевода: машинный перевод был медленнее, ниже по качеству и при этом обходился вдвое дороже, чем услуги людей-переводчиков. ALPAC считала дальнейшие инвестиции в эту область неразумными, предлагая вместо этого сосредоточиться на разработке систем, которые помогали бы работать переводчикам — например, компьютерных словарей — а также вести дальнейшие теоретические исследования в области (компьютерной лингвистики). Отчёт ALPAC привёл к фактическому прекращению любых разработок в области машинного перевода в США и также повлиял на исследователей в СССР и Европе. Тем не менее, в некоторых странах — Германии, Канаде, Франции — исследования в этой области продолжались. В 1970 году ВВС США начала эксплуатировать систему (SYSTRAN); в 1976 году Европейская комиссия начала использовать ту же систему SYSTRAN для перевода между европейскими языками своих быстро растущих объемов документов. В том же году в Канаде была запущена разработанная (Монреальским университетом) система Meteo для машинного перевода прогнозов погоды. В СССР в 1960-е годы разработки в области машинного перевода были сосредоточены в основном на области перевода научно-технической документации с английского на русский язык и обратно, рассчитанной на малое количество потенциальных пользователей — в этой области скорость доступа к информации был важнее, чем недостатки машинного перевода.

К началу 1980-х годов основные системы машинного перевода строились на базе компьютеров-мейнфреймов. Помимо SYSTRAN, поддерживающей к этому времени уже много языковых пар, появились системы Logos для переводов в парах английский-немецкий и английский-французский; собственная система ^[англ.] для переводов в паре английский-испанский; система ^[англ.], разработанная (Техасским университетом в Остине) и немецкой компанией Siemens, а также ряд систем для перевода в паре английский-японский от японских производителей. В 1980-х года широко распространились персональные компьютеры и текстовые процессоры — появилось огромное количество гораздо более дешёвых систем машинного перевода, чем прежде, в том числе продукты компаний ALPS, ^[англ.], Linguistic Products и Globalink, и множество японских — свои микрокомпьютеры для машинного перевода выпускали компании (Sharp), NEC, (OKI), Mitsubishi, Sanyo и другие. В научной среде также появилось множество исследований, связанных с «непрямым» переводом через промежуточные и иногда межъязыковые формы представления информации, семантическим, морфологическим и синтаксическим анализом, а также составлением нелингвистических баз знаний. В это время функционировали и два крупных международных исследовательских проекта — ^[англ.], который финансировали Европейские сообщества, и японский Центр международного сотрудничества в области компьютеризации, объединяющий также учёных из Китая, Индонезии и Таиланда.

Система Candide, созданная группой специалистов из IBM на рубеже 1980-х 1990-х годов, стала первой демонстрацией нового подхода — статистического машинного перевода. В это же время несколько японских исследовательских групп предлагали и ещё одно решение проблемы машинного перевода — системы, где перевод строился на готовых примерах. Создавались и проекты систем машинного перевода на основе правил, как проект Catalyst (университета Карнеги — Меллона). Появились и коммерческие системы (памяти переводов), как Trados, позволявшие людям-переводчикам легко обращаться к уже имеющимся переводам текстов. В 1990-е годы также начались исследования в области машинного перевода речи.

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания (SYSTRAN). В России большой вклад в развитие машинного перевода внесла группа под руководством проф. (Р. Г. Пиотровского) (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).

Подходы к машинному переводу

Машинный перевод на основе правил

Статистический машинный перевод

Статистический подход в машинном переводе основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.

Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчёты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчёты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

Нейронный машинный перевод

Философские обоснования

В 1960-х годах Станислав Лем обобщал высказывания о проблеме машинного перевода и связи с (пониманием текста) самой машиной (что связано, например, с обсуждением сформулированной в 1980 году концепции «(китайской комнаты)»):

... мы настаиваем на наделении машин-переводчиков «полнотой внутренней жизни» человека; однако мы просто не знаем, в какой мере можно «недодать личность» машине, которая призвана хорошо переводить. Мы не знаем, можно ли «понимать», не обладая «личностью» хотя бы в зачатке. <…> Не представляется возможным эффективно использовать операциональный язык до конца в качестве орудия перевода в сфере языков дискурсивных — мыслительных. Либо машины будут действовать «понимающе», либо по-настоящему эффективных машин-переводчиков не будет вовсе.

Качество перевода

Качество перевода зависит от тематики и (стиля) исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.^[] Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в Интернете шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к драйверу мыши, известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей». Из кратких — фраза «Our cat gave birth to three kittens — two whites and one black», которую онлайн-переводчик «(ПРОМТ)» (версия 7.0, 2007) превращал в «Наш кот родил трёх котят — двух белых и одного афроамериканца». Если «афроамериканца» ещё можно было сделать «чёрным», написав «black kitten», то «коту» так и не получалось сменить пол: например, female cat переводился как «самка кот».

Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращал «(Лев Толстой)» в «Lion Thick» («толстый лев»), «(bra-ket notation)» в «примечание Кети лифчика», «(Lie algebra)» — в «алгебру Лжи», «(eccentricity vector)» — в «вектор оригинальности», «(Shawnee Smith)» в «индеец племени шони Смит», популярную в сериале «(Игра в кальмара)» игру «Red light, green light» — в «красный свет, зелёный свет» и т. п. (Переводчик Google), наоборот, слово «rice» часто принимал за фамилию госсекретаря США.

См. также

Автоматизированный перевод
(Автоматический перевод устной речи)
Синтаксический анализ

Впрочем, это не так: (sic) — это (электронный словарь), программа того же класса, что и (Lingvo), самостоятельно переводить не способная. В то время он существовал в версиях для DOS и Windows 3.x и, уступая Lingvo и Context по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека».

Примечания

Hutchins, John. The history of machine translation in a nutshell (англ.) // hutchinsweb.me.uk. — 2014. 22 февраля 2024 года.
«(Summa Technologiae)», 1963 (или 2-е изд. 1967), глава 4.
Щелчок по почкам // (Хакер). — 1999. — № 1. — С. 98. — ISSN 1609-1019. 11 декабря 2022 года.
Polyglossum на официальном сайте (неопр.). Дата обращения: 4 июля 2011. 16 сентября 2010 года.
К. Кноп. Сократ мне друг, но истина дороже от 21 января 2021 на Wayback Machine // Компьютерра. — 1999. — № 47 (23 ноября).
Наш кот родил трех котят — двух белых и одного афроамериканца

Литература

В Викисловаре есть статья «машинный перевод»

Автоматический перевод / И. М. Богуславский // Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов. — М. : Большая российская энциклопедия, 2004—2017.
Гращенко Л. А., Клышинский Э. С., Тумковский С. Р., Усманов З. Д. Концептуальная модель системы русско-таджикского машинного перевода // Доклады Академии наук Республики Таджикистан. — 2011. — том 54, № 4. — С. 279—285.
О. С. Кулагина. О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. .
Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: Издательская группа URSS, 2017.
// Компьютерра № 21, 5 июня 2002.

Ссылки

Машинный перевод. От холодной войны до диплёрнинга

[6] Впрочем, это не так: (sic) — это (электронный словарь), программа того же класса, что и (Lingvo), самостоятельно переводить не способная. В то время он существовал в версиях для DOS и Windows 3.x и, уступая Lingvo и Context по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека».

[Hutchins_2014-1] Hutchins, John. The history of machine translation in a nutshell (англ.) // hutchinsweb.me.uk. — 2014. 22 февраля 2024 года.

[2] «(Summa Technologiae)», 1963 (или 2-е изд. 1967), глава 4.

[3] Щелчок по почкам // (Хакер). — 1999. — № 1. — С. 98. — ISSN 1609-1019. 11 декабря 2022 года.

[4] Polyglossum на официальном сайте (неопр.). Дата обращения: 4 июля 2011. 16 сентября 2010 года.

[5] К. Кноп. Сократ мне друг, но истина дороже от 21 января 2021 на Wayback Machine // Компьютерра. — 1999. — № 47 (23 ноября).

[7] Наш кот родил трех котят — двух белых и одного афроамериканца