Прикладное программное обеспечение: системы автоматической обработки текстов

Авторы: Михаил Георгиевич Мальковский / Татьяна Юрьевна Грацианова

Циклы: не входит в цикл

Формат: Полный

Всего в книге 22 страницы. Год издания книги - 2000.

Учебное пособие знакомит читателей с одной из наиболее интересных и перспективных задач прикладного программирования - задачей автоматической обработки тестов на естественном языке. Рассмитриваются рациональные сферы применения систме автоматической обработки текстов , проблемы их линвистиеского обеспечения.

Для студентов 2 курса факультета ВМК МГУ в поддержку обязательного лекционного курса "Прикладное программное обеспчение".

Авторы пособия благодарят Владимира Геннадиевича Абрамова и Валерия Ивановича Родина за ценные советы и замечания.

Рецензенты: проф. Р.Л. Смелянский, доц. Л.С. Корухова.

Печатается по решению Редакционно-издательского совета факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова.

Читать онлайн Прикладное программное обеспечение: системы автоматической обработки текстов

1. Сферы применения систем автоматической обработки текстов

Системы автоматической обработки текста (т.е. переработки одного вида текста в памяти ЭВМ в другой) по выполняемым функциям (входной и выходной информации) можно классифицировать следующим образом:

Язык входного текста

Язык выходного текста

Естественный-1

Естественный-2

Искусственный

Естественный

Искусственный / Естественный

Естественный

Естественный + { Искусственный}

К системам первого типа относятся программы машинного перевода, получающие текст на некотором естественном языке и перерабатывающие его в текст на другом естественном языке. Второй тип - системы генерации (синтеза) текстов по некоторому формальному описанию. Системы третьего типа, наоборот, перерабатывают текст на естественном языке в текст на искусственном (индексирование, извлечение смыслового содержания) или в другой текст на естественном языке (реферирование). К последнему классу отнесем программы, занимающиеся проверкой текста, написанного на естественном языке. Они в результате своей работы либо исправляют входной текст автоматически, либо формируют некоторый протокол замечаний.

Естественный язык - сложная, многоплановая система, с множеством правил, внутренних связей, имеющая отношение ко всем аспектам деятельности человека. Точность и правильность работы программ определяется глубиной анализа. Достаточно глубокий анализ пока достигается только для определенных узких предметных областей (из-за специфичности подъязыка такой области: в каждой области свои термины, специфические семантические отношения и т.п.).

Для создания систем, работающих со всем естественным языком без потери глубины анализа, в настоящий момент не хватает либо технических возможностей (быстродействия, памяти), либо теоретической базы (например, пока нет даже единой схемы достаточно полного, глубокого и непротиворечивого описания семантики естественного языка). Однако в коммерческих системах, ввиду того, что предназначаются они для большого количества пользователей, разных предметных областей, принята концепция поверхностного анализа, к тому же и производится такой анализ значительно быстрее. Дальнейшее продвижение вперед, использование естественного языка в практических областях невозможно без оснащения этих систем обширными и глубокими (с точки зрения охвата различных явлений языка) описаниями и моделями, созданными лингвистами-профессионалами.

Эта тенденция прогнозируется многими исследователями и прослеживается на примере развития АОТ-систем, уже в наши дни представляющих коммерческий интерес и использующихся при решении следующих прикладных задач:

1. Machine Translation and Translation Aids - машинный перевод;

2. Text Generation - генерация текста;

3. Localization and Internationalization - локализация и интернационализация;

4. Controlled Language - работа на ограниченном языке;

5. Word Processing and Spelling Correction - создание текстовых документов (ввод, редактирование, исправление ошибок)

6. Information Retrieval - информационный поиск и связанные с ним задачи.

Отметим, что это деление несколько условное, и в реальных системах часто встречается объединение функций. Так, для машинного перевода требуется генерация текста, а при исправлении ошибок приходится заниматься поиском вариантов словоформы и т.д.

1.1. Машинный перевод

Исторически машинный перевод является первой попыткой использования компьютеров для решения невычислительных задач (знаменитый Джорджтаунский эксперимент в США в 1954 г.; работы по машинному переводу в СССР, начавшиеся в 1954 г.). Развитие электронной техники, рост объема памяти и производительности компьютеров создавали иллюзию быстрого решения этой задачи. Идея захватила воображение ученых и администраторов. Практическая цель была простой: загрузить в память компьютера максимально возможный словарь и с его помощью из иноязычных текстов получать текст на родном языке в удобочитаемом виде. Однако первоначальная эйфория по поводу того, что столь трудоемкую работу можно поручить ЭВМ, сменилась разочарованием в связи с абсолютной непригодностью получаемых текстов. Приведем в качестве примера результаты работы одной из современных коммерческих систем перевода. Предложим ей перевести народное английское стихотворение, известное нам в переводе "Робин-Бобин" (текст этот очень простой, московские дети изучают его в начальной школе):

Robin, Robin, what a man!

He eats as much as no one can.

He ate a lot of fish, he ate a lot of meat.

He ate a lot of ice-cream and a sweet.

He ate a lot of porridge and ten eggs

And all the cookies Mother had.

He drank a lot of juice, he ate a cake

Then said: "I have a stomach-ache"

Малиновка, Малиновка, какой человек!

Он ест насколько никто не может.

Он съел много рыб, он съел много мяс.

Он съел много ледяных-сливки и сладкий.

Он съел много каша и десять яйцо

И вся Мать повары имела.

Он пил много соков, он съел торт

Затем сказал: "У меня есть желудок- боль"

Сравним с художественным переводом К.Чуковского:

Робин Бобин Барабек

Скушал сорок человек.

И корову, и быка,

И кривого мясника,

И телегу, и дугу,

Продолжить чтение

С этой книгой читают

Достоевский (и еврейский вопрос в России)

Автор: Марк Борисович Поднос

Жанры: Публицистика, Языкознание

Великое искусство человеческого бытия в том и состоит, что человек делает себя сам. Время обязывает, но есть еще и долги фамильные. Продление рода не подарок, а искусство и чувство долга. Не бойтесь уходить из жизни. Она продолжается. Ее имя – память. Поколение сменяется поколением. Есть генетика, есть и генезис. Если мы, наследующие предков наших, не сделаем шаг вперед, то, значит, мы отстаем от времени. Значит, мы задолжали предкам. Остается надежда, что наши потомки окажутся мудрее и захотят (смогут) отдать долги, накопленные нами.В формате PDF A4 сохранен издательский макет.

Расшифрованный Достоевский. «Преступление и наказание», «Идиот», «Бесы», «Братья Карамазовы»

Автор: Борис Вадимович Соколов

Жанры: Биографии и мемуары, Языкознание

Книга известного литературоведа, доктора филологических наук Бориса Соколова раскрывает тайны четырех самых великих романов Федора Достоевского – «Преступление и наказание», «Идиот», «Бесы» и «Братья Карамазовы». По всем этим книгам не раз снимались художественные фильмы и сериалы, многие из которых вошли в сокровищницу мирового киноискусства, они с успехом инсценировались во многих театрах мира. Каково было истинное происхождение рода Достоевских? Каким был путь Достоевского к Богу и как это отразилось в его романах? Как личные душевные переживания писателя отразились в его произведениях? Кто был прототипами революционных «бесов»? Что роднит Николая Ставрогина с былинным богатырем? Каким образом повлиял на Достоевского скандально известный маркиз де Сад? Какая поэма послужила источником знаменитой легенды о «Великом инквизиторе»? Какой должна была быть судьба героев «Братьев Карамазовых» в так и ненаписанном Федором Михайловичем втором томе романа? На эти и другие вопросы о жизни и творчестве Достоевского читатель найдет ответы в этой книге.

Сожжение книг. История уничтожения письменных знаний от античности до наших дней

Автор: Ричард Овенден

Жанры: История, Языкознание

На протяжении всей своей истории люди не только создавали книги, но и уничтожали их. Полная история уничтожения письменных знаний от Античности до наших дней – в глубоком исследовании британского литературоведа и библиотекаря Ричарда Овендена.

Жан Расин и другие

Автор: Юлия Александровна Гинзбург

Жанры: Биографии и мемуары, Языкознание

Книга рассказывает о жизни и сочинениях великого французского драматурга ХVП века Жана Расина. В ходе повествования с помощью подлинных документов эпохи воссоздаются богословские диспуты, дворцовые интриги, литературные битвы, домашние заботы. Действующими лицами этого рассказа становятся Людовик XIV и его вельможи, поэты и актрисы, философы и королевские фаворитки, монахини и отравительницы современники, предшественники и потомки. Все они помогают разгадывать тайну расиновской судьбы и расиновского театра и тем самым добавляют пищи для размышлений об одной из центральных проблем в культуре: взаимоотношениях религии, морали и искусства. Автор книги переводчик и публицист Юлия Александровна Гинзбург (1941 2010), известная читателю по переводам «Калигулы» Камю и «Мыслей» Паскаля, «Принцессы Клевской» г-жи де Лафайет и «Дамы с камелиями» А.

Дети и тексты. Очерки преподавания литературы и русского языка

Автор: Надежда Ароновна Шапиро

Жанры: Языкознание, Педагогика

Книга посвящена изучению словесности в школе и основана на личном педагогическом опыте автора. В ней представлены наблюдения и размышления о том, как дети читают стихи и прозу, конкретные методические разработки, рассказы о реальных уроках и о том, как можно заниматься с детьми литературой во внеурочное время. Один раздел посвящен тому, как учить школьников создавать собственные тексты. Издание адресовано прежде всего учителям русского языка и литературы и студентам педагогических вузов, но может быть интересно также родителям школьников и всем любителям словесности. В формате PDF A4 сохранен издательский макет.

Толкин и Великая война. На пороге Средиземья

Автор: Джон Гарт

Жанры: Биографии и мемуары, Научная литература, Языкознание

Книга Дж. Гарта «Толкин и Великая война» вдохновлена давней любовью автора к произведениям Дж. Р. Р. Толкина в сочетании с интересом к Первой мировой войне. Показывая становление Толкина как писателя и мифотворца, Гарт воспроизводит события исторической битвы на Сомме: кровопролитные сражения и жестокую повседневность войны, жертвой которой стало поколение Толкина и его ближайшие друзья – вдохновенные талантливые интеллектуалы, мечтавшие изменить мир. Автор использовал материалы из неизданных личных архивов, а также послужной список Толкина и другие уникальные документы военного времени.

Желтый глаз

Автор: Александр Георгиевич Романовский

Жанр: Научная фантастика

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.

Две руки

Автор: Борис Владимирович Романовский

Жанр: Научная фантастика

Эльфийский браслет

Автор: Олеся Владимировна Алексеева

Жанры: Самиздат, сетевая литература, Любовная фантастика

Ни когда не принимайте подарки от странных антикваров! Ведь это может привести Вас к довольно необычным последствиям. Что не верите? Вот и Лера тоже не верила, и что в результате? Обрела браслет с заключенной в нем душой эльфийского княжича, познакомилась с ведьмой-хранительницей и отправилась в другой мир снимать проклятье наложенное на эльфа. А оно ей надо? Так что не принимайте подарков от подозрительных антикваров, ведь это может изменить всю Вашу жизнь. PS: Этот рассказ мой первенец и он находится в процессе рождения, так что не судите строго я пока только учусь писать интересные истории.

Юный техник, 2010 № 03

Автор: Журнал «Юный техник»

Жанры: Технические науки, Газеты и журналы

Популярный детский и юношеский журнал.

Поделиться мнением о книге