Материал опубликован в журнале «Арсенал Отечества» № 3 (71) за 2024 г.

Окончание. Читать начало - Часть 1

Михаил Гольдреер

В материале развивается тема, поднятая в статье «Машинный перевод для армии» («Арсенал Отечества», 2018, № 2).

Главное, для чего предназначен мозг человека, это управление процессами внутри человеческого тела, обработка поступающей из внешней среды информации и выработка на ее основе новой информации, позволяющей правильно взаимодействовать с этой внешней средой. Внешняя среда бывает неразумной или разумной. С неразумной средой человек общается через телодвижения, управляемые мыслями и рефлексами, а с разумной, то есть с другими людьми, посредством устной и письменной речи.
Таким образом, человеческая речь является наиболее полным отражением всех мыслительных процессов отдельного человека и человечества в целом. Поэтому, когда представители науки под названием «кибернетика» вознамерились создавать технические разумные системы путем моделирования этих процессов на примере человеческого организма, то они достаточно быстро поняли, что для изучения и анализа при решении таких задач просто необходимо глубинно познать, научиться моделировать и воссоздавать, обновлять человеческую речь и все, что с нею связано. А на сегодняшний день к сфере компьютерной (она же прикладная и математическая) лингвистики «официально» относят: корпусную лингвистику, создание и использование электронных корпусов текстов, особенно в действующих системах машинного перевода и при анализе больших данных в выбранных темах, создание электронных словарей, тезаурусов, онтологий (например, ABBYY Lingvo). Словари используют тоже для автоматического перевода и проверки орфографии. Конечно же, сюда также относится и автоматический перевод текстов. Среди русских переводчиков популярным является PROMT. Среди бесплатных известен переводчик Google Translate и особенно — Yandex. Этот переводчик не только осуществляет перевод более чем со ста языков мира, но и обладает наиболее продвинутой русской лингвистической моделью.

Немаловажное значение для пользователей различных областей и уровней сегодня имеют:

  • автоматическое извлечение фактов из текста (извлечение информации), функция «Автореферирование» включена, в Microsoft Word;
  • анализ и рерайт текстов с помощью YandexGPT (встроенной в Yandex нейросети нового поколения);
  • построение систем управления знаниями;
  • создание вопросно-ответных систем, оптическое распознавание символов и образов, автоматическое распознавание речи, взаимодействие с компьютером на естественном языке, то есть создание, развитие, совершенствование интерфейсов;
  • разработка информационно-поисковых систем;
  • создание и совершенствование гипертекстов для сетевых информационных ресурсов.

Как можно видеть, нынешний этап развития компьютерной лингвистики показывает, что она полностью или почти полностью решила задачи, поставленные перед нею мировыми разведслужбами, научив компьютеры собирать и анализировать гигантские массивы всяческих данных, резко облегчила и повысила производительность труда профессиональных переводчиков при работе с большим количеством текстов, а потом эти достижения перетекли в гражданскую сферу, приобщив все цивилизованное человечество к цифровой технике даже на личностно-бытовом уровне. С появлением же Всемирной сети «Интернет» компьютерная лингвистика вообще открыла для себя новые гигантские поприща, которые превращают ее отдельные отрасли уже в самостоятельные науки.
Уже стало аксиомой то, что подавляющее большинство новых знаний, открытий, изобретений и направлений науки возникает на стыке (при тесном сотрудничестве) различных, часто не имеющих общего корня и видимой связи наук. Компьютерная лингвистика возникла на стыке структурного языкознания и математики, тут же открыв для себя структурализм и начав использовать его наработки (структурализм изучал в Париже Зализняк, о котором рассказано выше), то есть использования лингвистических моделей для анализа общества и культуры.
Очень модный в свое время структурализм быстро себя исчерпал, но оставил мощную идею использования лингвистического подхода к исследованию и моделированию множества естественных, и особенно искусственных, интеллектуальных процессов. Ярким примером этого является история о том, как в 1935 году британскому аспиранту-математику пришла в голову идея создания универсальной машины для решения логических задач. Обдумывая математическую модель этой абстракции, он, прежде всего, постарался разработать схему языка, на котором эта универсальная машина (в эпоху цифровой техники ее назвали «универсальный компьютер») станет «продумывать», а также излагать решения или ход своих «продумываний». А уже после этого, исходя в немалой степени из схемы этого языка, из анализа его модели, построил логико-математическую модель будущего универсального компьютера. Этого аспиранта звали Алан Тьюринг. Это был гений математики, кибернетики и цифровой техники.

В последнее время важнейшим и очень многообещающим направлением мирового научного интереса стали когнитивные исследования — это попытки понять закономерности человеческого познания и использовать их при построении искусственных «мыслительных» систем силами сразу множества наук. И вот тут современные лингвистические методики для анализа и синтеза моделей познания — ключевой инструмент, ибо сами (не побоюсь этого слова) идеи когнитивных исследований выросли и окрепли на фундаменте математизации прикладной и теоретической лингвистики как в человеческом, так и в компьютерном плане. Породив своим в результате своего развития целый набор технологически близких направлений, сама компьютерная лингвистика стала одной из равноправных частей этого набора, ибо естественный язык является универсальным средством общения, создания и взаимообогащения знаний во всех областях человеческой деятельности, включая науку, бизнес, управление и искусство. Объем этих знаний растет с невиданной прежде скоростью. И число частных задач, требующих компьютерных решений, практически безгранично.
Поэтому специалисты, владеющие прикладной и математической лингвистикой, сегодня востребованы чрезвычайно. Спрос на них постоянно растет, причем настолько резко, что это похоже на «голод». Подтверждает этот спрос множество факторов: учебные подразделения, готовящие специалистов данного профиля, бурно развиваются и растут не только там, где эта специальность зародилась (в МГУ, РГГУ, МГЛУ и НГУ), но и также в МФТИ, Томском университете, Высшей школе экономики и т. д. А выпускники-специалисты просто нарасхват в исследовательских центрах РАН, Сколково, в Курчатовском институте, в важных военных и гражданских государственных структурах. А также, что не менее важно, — в таких суперпередовых частных корпорациях, как «Яндекс», «Сбер», ABBYY, «Лаборатория Касперского», компания машинного перевода PROMT и т. д.
Следует отметить, что вышеперечисленные частные корпорации не только «потребляют» выпускников с подготовкой по математической лингвистике и связанными с ней направлениями, но и активно помогают университетам страны создавать у себя кафедры, факультеты, лаборатории и исследовательские группы с соответствующей специализацией, опекают их, помогают в практической подготовке студентов, дают заказы на разработки. Самая свежая информация на эту тему: буквально недавно МФТИ совместно с компанией «Яндекс» создал лабораторию фундаментальных исследований при Физтех-школе прикладной математики и информатики(ФПМИ).
Основные направления исследований, которыми занимается лаборатория, — машинное обучение, компьютерное зрение, информационный поиск, рекомендательные системы, обработка естественного языка и машинный перевод. То есть весь пул связанных с компьютерной лингвистикой новейших дисциплин. А еще ранее компания ABBYY и лично ее основатель Давид Ян, выпускник МФТИ, проявили инициативу в деле создания в вузе кафедры компьютерной лингвистики и Учебного центра по подготовке компьютерных лингвистов в РГГУ, поскольку там было развито преподавание структурной лингвистики. Ныне кафедру в МФТИ и Учебный центр возглавляет один и тот же человек — директор по лингвистическим исследованиям компании ABBYY.
Можно заметить, что если в каком‑то учебном заведении (особенно в Москве и Петербурге) изучают и исследуют темы прикладной математической лингвистики, то там непременно присутствует заинтересованность компаний «Яндекс» или ABBYY. Именно поэтому диплом компьютерного лингвиста по любой специализации сегодня — полная гарантия престижного трудоустройства, карьерного роста и достойного заработка. Ведь сейчас компьютерная лингвистика в изучении и усвоении настолько трудоемка, что ею могут овладеть только истинно увлеченные молодые люди, а также по-настоящему одаренные умственными способностями и чисто физической работоспособностью. Именно от них в дальнейшем работодатели с полным основанием ждут большой и выгодной отдачи.
Итак, компьютерную лингвистику породила потребность в машинном переводе с одних языков на другие. За многие десятилетия исследований в этом процессе удалось многое понять, кое-чего добиться и кое-что компьютеризировать. Но и сегодня машинный перевод — это высший пилотаж прикладной математической лингвистики, а высшим пилотажем машинного перевода станет достижение того, чтобы разноязычные собеседники могли свободно и без ошибок общаться письменно или устно через свои гаджеты на простые, неспециализированные темы, используя разговорный язык, хотя бы короткие фразы, не прибегая к услугам переводчика. Я в эту перспективу верю и тоже над ней работаю.

Последние материалы

Новости
Статьи
Блог

Партнёры

Реклама

Журнал онлайн

Подписка на журнал

Журнал «Арсенал Отечества» продолжает подписку на 2024-25 года.

По вопросам подписки для юридических лиц или приобретения журнала в розницу обращайтесь к С.А. Бугаеву
bugaev@arsenal-otechestva.ru
+7 (916) 337-14-17

Электронная подписка - https://www.ivis.ru/

Оформить подписку для физических лиц можно через компанию ООО «Деловая Пресса» тел. (499)704-1305, Email: podpiska@delpress.ru,
сайт: https://delpress.ru/information-for-subscribers.html  и ООО « Урал-Пресс Округ » http://www.ural-press.ru/catalog/

Стоимость годовой подписки — 18 000 руб.

Редакция журнала

Адрес редакции:
107023, г. Москва, ул. Большая Семёновская, д.32, офис 200

Телефон:
+7 (495) 777 23 14

E-mail:
info@arsenal-otechestva.ru