Маши́нный перево́д — процесс автоматического перевода текста или речи с одного естественного языка на другой, осуществляемый искусственным интеллектом без участия человека. Ранние попытки использовать компьютеры для перевода строились на основе запрограммированных словарей и лингвистических правил, более современные строятся на основе вероятностного подхода — это статистический и (нейронный машинный перевод).
История машинного перевода
В другом языковом разделе есть более полная статья History of machine translation (англ.). |
Идеи алгоритмов для перевода с одного языка на другой предшествовали изобретению компьютера. В середине 1930-х годов французский инженер армянского происхождения Жорж Артцруни и советский учёный и педагог (Пётр Смирнов-Троянский) независимо друг от друга пытались запатентовать «машины для перевода». Более проработанный вариант Смирнова-Троянского включал в себя, кроме автоматического двуязычного словаря, схему для кодирования межъязыковых грамматических ролей, основанную на эсперанто и общие концепции анализа и синтеза текста. Тем не менее, идеи Смирнова-Троянского не получили известности до 1950-х годов.
Мысль использовать ЭВМ для перевода была высказана в 1947 году в США — её сформулировал математик [англ.], работавший в то время в (Фонде Рокфеллера), в письме (Норберту Винеру). В июле 1949 года Уоррен подготовил меморандум, в котором свёл существующие на тот момент предложения в области машинного перевода — они строились на базе накопленных во время Второй мировой войны наработок в области криптоанализа шифров, теории информации Клода Шеннона и идей о неких универсальных принципах, на которых строятся все естественные языки. В течение следующих лет в нескольких американских университетах начались работы по созданию систем машинного перевода на базе ЭВМ. Первая публичная демонстрация такой системы – так называемый (Джорджтаунский эксперимент) — состоялась в 1954 году. Она была создана на базе сотрудничества между компанией IBM и Джорджтаунским университетом. Хотя Джорджтаунский эксперимент использовал очень ограниченный словарь и простейшую грамматику, он привлёк к себе огромный интерес и подтолкнул учёных в разных странах мира к исследованиям в этой области.
Ранние системы представляли собой просто большие двуязычные словари и системы правил, по которым для каждого слова из целевого языка подбирался подходящий эквивалент в другом языке. Тем не менее, учёные быстро осознали, что синтаксические правила для выстраивания слов в правильном порядке становятся непомерно сложными. Машинный перевод требовал более систематических методов синтаксического анализа. Исследования в области машинного перевода в 1950-1960-х годах проводились под влиянием новых лингвистические теорий, особенно моделей (формальных грамматик), как трансформационно-генеративная грамматика, (грамматика зависимостей) и стратификационная грамматика. С середины 1950-х по середину 1960-х годов исследователи в области машинного перевода сохраняли оптимизм, надеясь на прорыв в самом близком будущем. В начале 1960-х годов функционировало несколько работающих систем машинного перевода — так, Управление иностранных технологий ВВС США эксплуатировал компьютер Mark II, созданный совместно IBM и Вашингтонским университетом; разработки Джорджтаунского университета использовали (Комиссия по атомной энергии США) и (Европейское сообщество по атомной энергии) в своём центре в Италии.
В 1964 году правительство США созвало специальную Консультативную комиссию по автоматической обработке языка ([англ.]). Эта группа в 1966 году опубликовала отчёт, в котором делала вывод о нерентабельности систем машинного перевода: машинный перевод был медленнее, ниже по качеству и при этом обходился вдвое дороже, чем услуги людей-переводчиков. ALPAC считала дальнейшие инвестиции в эту область неразумными, предлагая вместо этого сосредоточиться на разработке систем, которые помогали бы работать переводчикам — например, компьютерных словарей — а также вести дальнейшие теоретические исследования в области (компьютерной лингвистики). Отчёт ALPAC привёл к фактическому прекращению любых разработок в области машинного перевода в США и также повлиял на исследователей в СССР и Европе. Тем не менее, в некоторых странах — Германии, Канаде, Франции — исследования в этой области продолжались. В 1970 году ВВС США начала эксплуатировать систему (SYSTRAN); в 1976 году Европейская комиссия начала использовать ту же систему SYSTRAN для перевода между европейскими языками своих быстро растущих объемов документов. В том же году в Канаде была запущена разработанная (Монреальским университетом) система Meteo для машинного перевода прогнозов погоды. В СССР в 1960-е годы разработки в области машинного перевода были сосредоточены в основном на области перевода научно-технической документации с английского на русский язык и обратно, рассчитанной на малое количество потенциальных пользователей — в этой области скорость доступа к информации был важнее, чем недостатки машинного перевода.
К началу 1980-х годов основные системы машинного перевода строились на базе компьютеров-мейнфреймов. Помимо SYSTRAN, поддерживающей к этому времени уже много языковых пар, появились системы Logos для переводов в парах английский-немецкий и английский-французский; собственная система [англ.] для переводов в паре английский-испанский; система [англ.], разработанная (Техасским университетом в Остине) и немецкой компанией Siemens, а также ряд систем для перевода в паре английский-японский от японских производителей. В 1980-х года широко распространились персональные компьютеры и текстовые процессоры — появилось огромное количество гораздо более дешёвых систем машинного перевода, чем прежде, в том числе продукты компаний ALPS, [англ.], Linguistic Products и Globalink, и множество японских — свои микрокомпьютеры для машинного перевода выпускали компании (Sharp), NEC, (OKI), Mitsubishi, Sanyo и другие. В научной среде также появилось множество исследований, связанных с «непрямым» переводом через промежуточные и иногда межъязыковые формы представления информации, семантическим, морфологическим и синтаксическим анализом, а также составлением нелингвистических баз знаний. В это время функционировали и два крупных международных исследовательских проекта — [англ.], который финансировали Европейские сообщества, и японский Центр международного сотрудничества в области компьютеризации, объединяющий также учёных из Китая, Индонезии и Таиланда.
Система Candide, созданная группой специалистов из IBM на рубеже 1980-х 1990-х годов, стала первой демонстрацией нового подхода — статистического машинного перевода. В это же время несколько японских исследовательских групп предлагали и ещё одно решение проблемы машинного перевода — системы, где перевод строился на готовых примерах. Создавались и проекты систем машинного перевода на основе правил, как проект Catalyst (университета Карнеги — Меллона). Появились и коммерческие системы (памяти переводов), как Trados, позволявшие людям-переводчикам легко обращаться к уже имеющимся переводам текстов. В 1990-е годы также начались исследования в области машинного перевода речи.
В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания (SYSTRAN). В России большой вклад в развитие машинного перевода внесла группа под руководством проф. (Р. Г. Пиотровского) (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).
Подходы к машинному переводу
Машинный перевод на основе правил
Этот раздел . |
Статистический машинный перевод
Статистический подход в машинном переводе основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.
Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчёты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчёты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединённых наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.
Нейронный машинный перевод
Этот раздел . |
Философские обоснования
Этот раздел . |
В 1960-х годах Станислав Лем обобщал высказывания о проблеме машинного перевода и связи с (пониманием текста) самой машиной (что связано, например, с обсуждением сформулированной в 1980 году концепции «(китайской комнаты)»):
... мы настаиваем на наделении машин-переводчиков «полнотой внутренней жизни» человека; однако мы просто не знаем, в какой мере можно «недодать личность» машине, которая призвана хорошо переводить. Мы не знаем, можно ли «понимать», не обладая «личностью» хотя бы в зачатке. <…> Не представляется возможным эффективно использовать операциональный язык до конца в качестве орудия перевода в сфере языков дискурсивных — мыслительных. Либо машины будут действовать «понимающе», либо по-настоящему эффективных машин-переводчиков не будет вовсе.
Качество перевода
Возможно, этот раздел содержит . |
Качество перевода зависит от тематики и (стиля) исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.[] Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.
Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в Интернете шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к драйверу мыши, известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей». Из кратких — фраза «Our cat gave birth to three kittens — two whites and one black», которую онлайн-переводчик «(ПРОМТ)» (версия 7.0, 2007) превращал в «Наш кот родил трёх котят — двух белых и одного афроамериканца». Если «афроамериканца» ещё можно было сделать «чёрным», написав «black kitten», то «коту» так и не получалось сменить пол: например, female cat переводился как «самка кот».
Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращал «(Лев Толстой)» в «Lion Thick» («толстый лев»), «(bra-ket notation)» в «примечание Кети лифчика», «(Lie algebra)» — в «алгебру Лжи», «(eccentricity vector)» — в «вектор оригинальности», «(Shawnee Smith)» в «индеец племени шони Смит», популярную в сериале «(Игра в кальмара)» игру «Red light, green light» — в «красный свет, зелёный свет» и т. п. (Переводчик Google), наоборот, слово «rice» часто принимал за фамилию госсекретаря США.
См. также
- Автоматизированный перевод
- (Автоматический перевод устной речи)
- Синтаксический анализ
Комментарии
- Впрочем, это не так: (sic) — это (электронный словарь), программа того же класса, что и (Lingvo), самостоятельно переводить не способная. В то время он существовал в версиях для DOS и Windows 3.x и, уступая Lingvo и Context по качеству общего словаря, имел рекордный объём специализированных словарей. К тому же отдельные ошибки перевода выдают подделку — вероятно, после машинного перевода текст редактировался вручную : «Замечательный пример текста, полученного якобы при помощи медико-биологического словаря в результате перевода руководства по работе с драйверами мыши, называется „Гуртовщики Мыши“ … не верю в чистоту эксперимента: наверняка там не обошлось без поправок, внесенных в текст рукой человека».
Примечания
- Hutchins, John. The history of machine translation in a nutshell (англ.) // hutchinsweb.me.uk. — 2014. 22 февраля 2024 года.
- «(Summa Technologiae)», 1963 (или 2-е изд. 1967), глава 4.
- Щелчок по почкам // (Хакер). — 1999. — № 1. — С. 98. — ISSN 1609-1019. 11 декабря 2022 года.
- Polyglossum на официальном сайте . Дата обращения: 4 июля 2011. 16 сентября 2010 года.
- К. Кноп. Сократ мне друг, но истина дороже от 21 января 2021 на Wayback Machine // Компьютерра. — 1999. — № 47 (23 ноября).
- Наш кот родил трех котят — двух белых и одного афроамериканца
Литература
- Автоматический перевод / И. М. Богуславский // Большая российская энциклопедия : [в 35 т.] / гл. ред. Ю. С. Осипов. — М. : Большая российская энциклопедия, 2004—2017.
- Гращенко Л. А., Клышинский Э. С., Тумковский С. Р., Усманов З. Д. Концептуальная модель системы русско-таджикского машинного перевода // Доклады Академии наук Республики Таджикистан. — 2011. — том 54, № 4. — С. 279—285.
- О. С. Кулагина. О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. .
- Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: Издательская группа URSS, 2017.
- // Компьютерра № 21, 5 июня 2002.
Ссылки
Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер