Материал опубликован в журнале «Арсенал Отечества» № 3 (71) за 2024 г.

Михаил Гольдреер

В материале развивается тема, поднятая в статье «Машинный перевод для армии» («Арсенал Отечества», 2018, № 2).

Когда‑то, будучи советским подростком, я, подобно всем своим сверстникам, читал тогдашнюю научную фантастику, рассказывавшую о насыщенном чудесами науки и техники будущем человечества. В одном из таких рассказов я наткнулся на описание «машины для размышлений». Это было нечто вроде суперкомпьютера, к которому с помощью специального шлема подключался пользователь и начинал думать. Машина считывала его мысли прямо из мозга, и если в процессе мышления у человека возникал какой‑либо вопрос, то компьютер тут же давал на него ответ.
Можно сказать, в наше время эта фантазия если не полностью, то в значительной степени стала реальностью. Персональные компьютеры, суперкомпьютеры, нейронные сети стали важным информационным инструментом для процесса мышления практически каждого современного человека. Уже давно и достаточно перспективно проводятся опыты по управлению компьютерами с помощью мысленных импульсов. На последних стадиях доработки находится возможность голосового общения с компьютером. Достижения в сфере «компьютерного зрения» уже позволяют нашим гаджетам, подобно домашним животным, узнавать только своих непосредственных хозяев и подчиняться только им безо всяких паролей.
Разработка, развитие и осмысление всех этих достижений уже давно превратились в отдельную, суперсовременную, интересную и перспективнейшую в плане карьер и финансовых успехов науку-отрасль под названием «компьютерная лингвистика», она же — «лингвистика математическая и прикладная».
Компьютерная лингвистика (также математическая или вычислительная лингвистика) — научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.
Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.
Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации. Это классическое и общепринятое определение компьютерной лингвистики зародилось и сформировалось еще в 50‑е годы прошлого века и, на мой взгляд, уже далеко не полностью отражает все, чем ныне занята эта наука, постоянно открывающая для себя новые, неожиданные направления.
Для начала немного истории. Сразу же, как только появились крупные электронно-вычислительные машины (компьютеры), способные работать с большими массивами данных, то есть строить математические модели и оперировать ими, эту возможность тут же попытались использовать мировые разведки, прежде всего, ЦРУ США, чтобы ускорить обработку и анализ буквально всей информации, которую получали о Советском Союзе и всех других потенциальных противниках и конкурентах.
В дальнейшем Запад стал самым внимательным образом собирать, обрабатывать и анализировать всю советскую научно-техническую информацию. А для этого ее нужно было прежде всего перевести с русского языка. Поэтому уже в конце 40‑х — начале 50‑х годов XX века начались попытки создания компьютерных переводческих программ. Задача эта оказалась настолько же нелегкой, насколько и захватывающей, породив множество идей в сфере общения человека и компьютера вообще, а также массу компьютерных технологий для анализа и изучения вопросов языкознания, которые дали, в свою очередь, огромный толчок для развития теории искусственного интеллекта.
Результатом этих усилий стало появление отдельной науки под названием «компьютерная лингвистика» (слово «лингвистика» можно перевести как «языкознание»). Как известно издревле, всякое исследование становится наукой только тогда, когда в нем начинает присутствовать математика. Поэтому, когда первым кибернетикам, а среди них был и сам «отец кибернетики», математик Норберт Винер, разведчики-аналитики ЦРУ США поставили задачу анализа и перевода естественных языков, то после первых опытов по простейшей перекодировке слов одного языка на другой, которые сразу показали свою тупиковую бесперспективность, пришлось искать другие методы анализа и компьютерного моделирования естественных языков.


И эти поиски привели к такой абстрактной отрасли языкознания, как структурная лингвистика. Ею занимались и развивали в то время единичные, особо продвинутые ученые-филологи, которые сумели обнаружить в словах и речевых конструкциях устойчивые, четко прогнозируемые закономерности. А когда такие закономерности присутствуют в больших массивах каких‑либо данных, то это значит, что на основе выявленных закономерностей можно строить математические модели, а с их помощью анализировать и синтезировать такие массивы.
Кибернетики вместе с математиками начали строить языковые модели, и дело пошло. Оказалось, что на основе подобных моделей можно не только пробовать переводить тексты с одного языка на другой, но и резко облегчить общение человека с компьютером, создать интерфейсы, особенно ввод данных и их получение от компьютера, которые дали бы в перспективе возможность любому человеку пользоваться цифровой техникой. Разумеется, по этой тематике сразу же пошли научные и научно-популярные публикации.
Немного истории. Еще в XIX веке возник, а в XX стал незыблемым постулат о том, что «война — главный кормилец и двигатель для науки». Как известно, чуть ли не 90 процентов нужной информации все разведки мира получают из открытых источников, просто читая СМИ интересующих их стран. Есть даже такой забавных миф, будто, когда советские специалисты по разведке начали учить разведчиков только что возникшего коммунистического Китая, то те, послушав своих наставников, тут же создали секретный полк своей Народно-освободительной армии, бойцы которого готовились и читали в интересах разведки иностранные газеты.
Первые публикации о возможностях компьютерного анализа и перевода иностранной речи на основе достижений в исследованиях по структурной лингвистики появились в первой половине 50‑х годов прошлого века. И на них тут же обратили внимание в научно-технических разведподразделениях советского Комитета государственной безопасности(КГБ). Здесь необходимо помянуть добрым словом великого советского разведчика, инженера по образованию Павла Фитина, который возглавлял разведку госбезопасности всю Отечественную войну, наладив блестящую работу зарубежных резидентур и обеспечив результативную разведывательно-диверсионную деятельность на временно оккупированных территориях.
Самым главным достижением Фитина было своевременное и максимально полное добывание данных о ходе и технологиях американского проекта по созданию ядерного оружия. Однако почти сразу после войны Фитин попал в опалу, его отстранили на третьестепенные должности, а после смерти Сталина и вовсе убрали из органов госбезопасности. Но там остались воспитанные им сотрудники, которые создали традицию отслеживания всех мировых научно-технических достижений буквально с момента их зарождения. А КГБ в жизни Советского Союза играл ключевую роль и имел большое влияние в искусстве, спорте, на производстве и в администрации, а особенно — в науке.
Пятидесятые годы прошлого века — это период жесточайшего противостояния между советским коммунистическим блоком и коллективным Западом. И хотя после смерти Сталина в 1953 году самоизоляция СССР («железный занавес») начала слегка смягчаться, но оставалась все еще достаточно жесткой. В частности, представить себе, чтобы кого‑то послали на учебу в университеты Западной Европы или США, было просто немыслимо. Любого, кто хоть ненадолго отпускался за границу, дотошно проверяли под строжайшим контролем КГБ.
И вдруг в 1957 году двадцатидвухлетнего выпускника филологического факультета МГУ Андрея Зализняка, очень способного парня, возглавлявшего Научное студенческое общество МГУ, на два года отправляют в Париж, где он учится в Сорбонне и Высшей нормальной школе (Университет по подготовке высших административных, преподавательских и научных кадров Франции) у известного структуралиста с мировым авторитетом Андре Мартине.
Потом Зализняк также незаметно возвращается в родной МГУ, преподает, удачно занимается историко-филологическими исследованиями, а в 1965 году защищает диссертацию, чтобы стать кандидатом наук, но по результатам этой защиты ему присваивают не кандидата, а сразу доктора филологических наук. И хотя тема его диссертации о чем‑то таком «заумном» в русском языке, но оппонентами при защите выступают не только известнейшие лингвисты, но и математик. А одним из лиц, ходатайствовавших о присуждении именно докторской степени Зализняку, был русский математический гений, легенда мировой математики, почти соперник самого Норберта Винера в деле создания теоретических основ кибернетики, академик Колмогоров! Вот как‑то так и зародилась в России вся эта компьютерная, математическая, прикладная лингвистика.
Разумеется, был не только Зализняк. Одновременно с ним в Советском Союзе на этом направлении действовало немало ученых. Но характерный пример с Зализняком показывает, какими методами в нашей стране началось тогда восстановление нормального научного сотрудничества с внешним миром, ибо только оно способно обеспечить для ученых любой страны возможность находиться в потоке самой передовой научной мысли.


А вообще, бросая взгляд из сегодняшних дней на всю отечественную историю развития теоретической, прикладной и математической лингвистики, можно сделать вывод, что современная Россия как наследница всех периодов своей государственности, в том числе и советского, может гордиться тем, что внесла свой немалый вклад в это научное направление, вклад, без которого весь нынешний мировой уровень компьютерной лингвистики был бы просто невозможен.
Вот некоторые примеры. Советские исследовательские работы мирового уровня по теоретической лингвистике (так ее тогда называли некоторое время): модель «Смысл и текст» И. Мельчука, модель семантики (текстового смысла) Ю. Д. Апресяна (оппонента Зализняка на защите диссертации), модель русской морфологии (словостроения) Зализняка, модель семантики (речевого и текстового смысла) Б. Мартынова из Минска и т. д. и т. п. Можно также привести работы мирового уровня уже непосредственно по прикладной компьютерной лингвистике: в частности, С. Старостина по компьютерной морфологии, Ю. Д. Апресяна и его сотрудников по ИППИ над системой машинного перевода ЭТАП (электротехнический автоматический перевод), систему понимания естественного языка ПОЭТ, созданную под руководством Э. В. Попова вместе с лингвистами МГУ. Наконец, тот же «Словарь русского языка» академика Зализняка, великого лингвиста, расшифровавшего берестяные грамоты Древнего Новгорода. Именно его словарь, изданный в 1977 году, теперь признан фундаментальной основой для всех отечественных компьютерных программ для обработки любых текстов, ибо этот словарь Зализняк так удачно математизировал, что снял множество вопросов при построении компьютерных языковых моделей с его помощью!
Центрами исследований и накопления знаний по компьютерной лингвистике в советские времена стали такие мощные научные и учебные центры, как МГУ, Российский государственный гуманитарный университет (РГГУ), Новосибирский научный центр Российской Академии наук (РАН) и университет, Институт проблем управления РАН, Институт проблем передачи информации им. А. А. Харкевича РАН. Первые кафедры по компьютерной лингвистике в России появились в МГУ (отделение А. Е. Кибрика), в РГГУ, а также лингвистические группы в МИФИ, Новосибирском университете и др.
Разумеется, вся эта работа велась и финансировалась тогда государством прежде всего в военно-стратегическом контексте. Прикладная и математическая лингвистика своим развитием и применением совершенствовала и упрощала управление самыми важными и сложными военно-техническими системами, а также исследовательским оборудованием в военно-промышленном комплексе, помогала переводить, декодировать, расшифровывать и анализировать огромные массивы добытых во внешнем мире разведывательных, в том числе, научно-технических данных.
Но как технология двойного назначения она постепенно приходила и в гражданские сферы, помогая преобразовывать все отрасли хозяйства, образования, науки и повседневного быта, прежде всего упрощая общение человека с компьютером и делая это общение максимально массовым. Именно этот «социальный заказ», определяя главное направление развития, позволил прикладной и математической лингвистике не только сделаться необходимой почти во всех областях человеческой жизнедеятельности, но и создавать новые ее виды, превратившись в важнейшую часть фундамента теории и практики искусственного интеллекта(ИИ).

Продолжение статьи — Часть 2

Последние материалы

Новости
Статьи
Блог

Партнёры

Реклама

Журнал онлайн

Подписка на журнал

Журнал «Арсенал Отечества» продолжает подписку на 2024-25 года.

По вопросам подписки для юридических лиц или приобретения журнала в розницу обращайтесь к С.А. Бугаеву
bugaev@arsenal-otechestva.ru
+7 (916) 337-14-17

Электронная подписка - https://www.ivis.ru/

Оформить подписку для физических лиц можно через компанию ООО «Деловая Пресса» тел. (499)704-1305, Email: podpiska@delpress.ru,
сайт: https://delpress.ru/information-for-subscribers.html  и ООО « Урал-Пресс Округ » http://www.ural-press.ru/catalog/

Стоимость годовой подписки — 18 000 руб.

Редакция журнала

Адрес редакции:
107023, г. Москва, ул. Большая Семёновская, д.32, офис 200

Телефон:
+7 (495) 777 23 14

E-mail:
info@arsenal-otechestva.ru