Создание инструмента научных исследований на основе XML: Проблемы и методология

Создание инструмента научных исследований на основе XML: Проблемы и методология

Авторы:

Жанры: Программирование, Базы данных

Циклы: не входит в цикл

Формат: Полный

Всего в книге 7 страниц. У нас нет данных о годе издания книги.

"В своем докладе я опишу процесс создания электронного исследовательского инструмента, имеющего в своей основе печатный библиографический указатель, который предназначен для использования в научных целях, а также проанализирую некоторые трудности, с которыми мы столкнулись в ходе реализации данного проекта, и расскажу об избранных нами вариантах решения возникших проблем."

Читать онлайн Создание инструмента научных исследований на основе XML: Проблемы и методология


Создание инструмента научных исследований на основе XML: Проблемы и методология

Представленный John Walsh В XML Конференция В Орландо, Флорида, 9-14 декабря 2001

В своем докладе я опишу процесс создания электронного исследовательского инструмента, имеющего в своей основе печатный библиографический указатель, который предназначен для использования в научных целях, а также проанализирую некоторые трудности, с которыми мы столкнулись в ходе реализации данного проекта, и расскажу об избранных нами вариантах решения возникших проблем. Проект разрабатывается Цифровой Библиотечной Программой университета Индианы при поддержке в форме гранта от Департамента Образования США. Наш проект предполагает перевод в электронный формат двадцатилетнего периода (1956—1975) библиографического указателя советского периода «Летопись журнальных статей», в котором собраны ссылки на статьи из более чем 1700 научных и популярных журналов из различных областей человеческих знаний, как точных, так и гуманитарных наук.


Этапы проекта:

Создание цифровых изображения 250 000 страниц текста с бумажных оригиналов печатного выпуска Летописи.

Обработка изображений страниц системой Оптического Распознавания Символов с целью получения редактируемого электронного текста.

Разработка DTD.

Программное и ручное кодирование текста, его корректирование и проверка на соответствие тредованиям XML.

Создание Web-основанного интерфейса для поиска, просмотра и визуального представления электронного варианта «Летописи журнальных статей».


Проект «Летопись журнальных статей» предполагает комбинацию технических требований, связанных с исследовательскими и научными электронными публикациями, а также проблем, связанных с XML.


Проблемы проекта:

Очень большие и сложные документы XML и DTD. XML документы научно- исследовательского содержания, такие как коллекции полных текстов литературных работ, обширные словари или указатели масштаба «Летописи журнальных статей», имеют тенденцию разрастаться до огромных размеров, от сотен мегабайтов до более чем гигабайта. Соответственно, многие широкоупотребляемые DTD электронных библиотек, такие как Инициатива Кодирования Текста (TEI) или Кодированные Архивные Описания (EAD) отличаются своими большими масштабами и сложностью. Мы пришли к выводу, что несмотря на то, что эти DTD действительны, не все доступные инструменты (редакторы, XML процессоры, хранилища информации, и т.д.) способны справиться с задачами обработки документов и DTD такого размера и сложности. Поддержка Unicode. В «Летописи журнальных статей» в основном используется русский язык и кириллический алфавит. Однако, в тексте присутствуют и другие языки — английский и греческий, в основном в форме ссылок на иностранные источники, что обусловливает использование добавочных алфавитов. Подобное сочетание языков и алфавитов характерно для академической среды. Стандарт Unicode разрешает многие проблемы, связанные с перемешиванием различных наборов символов в одном электронном документе. Одним из требований проекта является надежная система поддержки стандарта Unicode во всех инструментах, используемых в разработке этого и других проектов цифровых библиотек. Быстрые, гибкие и сложные инструменты поиска и индексирования. Для того, чтобы такие масштабные коллекции исследовательских данных как «Летопись журнальных статей» использовались в полную силу необходимы высококачественные инструменты поиска. Необходим быстрый поиск по ключевым словам по всему тексту документа, а также более сложный поиск, с использованием преимуществ структуры XML и кодировки.


В своей презентации я расскажу об этапах развития проекта, наших вариантах решения обозначенных выше проблем и инструментах, которые мы проанализировали, и которые мы создали. Я также продемонстрирую прототип Web-основанного интерфейса электронной версии «Летописи журнальных статей».

1. Введение

Данный доклад посвящен трудностям, с которыми мы столкнулись, и методологии и инструментам, применяемым Цифровой Библиотечной Программой университета Индианы в рамках реализации проекта «Летопись журнальных статей».

1.1. О проекте

Некоторая вводная информация представлена на web-сайте проекта: ( http://webapp1.dlib.indiana.edu/letopis/index.jsp?lang=ru). Это кракий обзор проекта «Летопись журнальных статей»:

Цифровая Библиотечная Программа университета Индианы получила грант от Департамента Образования США в рамках Раздела IV «Технологическая программа» с целью перевода в электронный формат и представления на World Wide Web «Летописи журнальных статей» за период в двадцать лет (1956—1975 гг.), библиографического указателя советских периодических изданий, издающегося с 1926 года по настоящее время. Указатель охватывает более чем 1700 журналов, серий и продолжающихся публикаций академий, университетов, научно-исследовательских институтов в областях гуманитарных, естественных наук, наук об обществе, а также популярную периодическую литературу. Переведенная в электронный формат и помещенная в World Wide Web Летопись обеспечит доступ к периодической литературе важного периода российской истории, начинающегося с хрущевской «оттепели», следующей за двадцатым съездом коммунистической партии советского союза (КПСС), и продолжающегося вплоть до первой половины так называемой брежневской «эпохи застоя». Студенты и ученые, изучающие российскую политологию, литературу или историю периода 1956—1975 гг. безусловно оценят по достоинству «Летопись журнальных статей».


С этой книгой читают
Сущность технологии СОМ. Библиотека программиста

В этой книге СОМ исследуется с точки зрения разработчика C++. Написанная ведущим специалистом по модели компонентных объектов СОМ, она раскрывает сущность СОМ, помогая разработчикам правильно понять не только методы модели программирования СОМ, но и ее основу. Понимание мотивов создания СОМ и ее аспектов, касающихся распределенных систем, чрезвычайно важно для тех разработчиков, которые желают пойти дальше простейших приложений СОМ и стать по-настоящему эффективными СОМ-программистами. Показывая, почему СОМ для распределенных систем (Distributed СОМ) работает именно так, а не иначе, Дон Бокс дает вам возможность применять эту модель творчески и эффективно для ежедневных задач программирования.


Фундаментальные алгоритмы и структуры данных в Delphi

Книга "Фундаментальные алгоритмы и структуры данных в Delphi" представляет собой уникальное учебное и справочное пособие по наиболее распространенным алгоритмам манипулирования данными, которые зарекомендовали себя как надежные и проверенные многими поколениями программистов. По данным журнала "Delphi Informant" за 2002 год, эта книга была признана сообществом разработчиков прикладных приложений на Delphi как «самая лучшая книга по практическому применению всех версий Delphi».В книге подробно рассматриваются базовые понятия алгоритмов и основополагающие структуры данных, алгоритмы сортировки, поиска, хеширования, синтаксического разбора, сжатия данных, а также многие другие темы, тесно связанные с прикладным программированием.


19 смертных грехов, угрожающих безопасности программ

Эта книга необходима всем разработчикам программного обеспечения, независимо от платформы, языка или вида приложений. В ней рассмотрены 19 грехов, угрожающих безопасности программ, и показано, как от них избавиться. Рассмотрены уязвимости на языках C/C++, C#, Java, Visual Basic, Visual Basic.NET, Perl, Python в операционных системах Windows, Unix, Linux, Mac OS, Novell Netware. Авторы издания, Майкл Ховард и Дэвид Лебланк, обучают программистов, как писать безопасный код в компании Microsoft. На различных примерах продемонстрированы как сами ошибки, так и способы их исправления и защиты от них.


Java 7

Рассмотрено все необходимое для разработки, компиляции, отладки и запуска приложений Java. Изложены практические приемы использования как традиционных, так и новейших конструкций объектно-ориентированного языка Java, графической библиотеки классов Swing, расширенной библиотеки Java 2D, работа со звуком, печать, способы русификации программ. Приведено полное описание нововведений Java SE 7: двоичная запись чисел, строковые варианты разветвлений, "ромбовидный оператор", NIO2, новые средства многопоточности и др.


Pro Git

Разработчику часто требуется много сторонних инструментов, чтобы создавать и поддерживать проект. Система Git — один из таких инструментов и используется для контроля промежуточных версий вашего приложения, позволяя вам исправлять ошибки, откатывать к старой версии, разрабатывать проект в команде и сливать его потом. В книге вы узнаете об основах работы с Git: установка, ключевые команды, gitHub и многое другое.В книге рассматриваются следующие темы:основы Git;ветвление в Git;Git на сервере;распределённый Git;GitHub;инструменты Git;настройка Git;Git и другие системы контроля версий.


Изучаем Java EE 7

Java Enterprise Edition (Java EE) остается одной из ведущих технологий и платформ на основе Java. Данная книга представляет собой логичное пошаговое руководство, в котором подробно описаны многие спецификации и эталонные реализации Java EE 7. Работа с ними продемонстрирована на практических примерах. В этом фундаментальном издании также используется новейшая версия инструмента GlassFish, предназначенного для развертывания и администрирования примеров кода. Книга написана ведущим специалистом по обработке запросов на спецификацию Java EE, членом наблюдательного совета организации Java Community Process (JCP)


«Если», 2012 № 07 (233)

Евгений ЛУКИН. ПЕДАГОГИЧЕСКАЯ ПОЭМА ВТОРОГО ПОРЯДКАИзвестный писатель вернулся в родные места, но ситуация оказалась настолько фантастичной, что пришлось восстанавливать последовательность событий.Аллен СТИЛ. НАБЛЮДАТЕЛЬНЫЙ ПУНКТКеннеди и Хрущев об этом так и не узнали… Да и что бы они сумели сделать?Юджин МИРАБЕЛЛИ. ПОГОВОРИМ ПО-ИТАЛЬЯНСКИ?Вот что бывает, когда у вас в квартире начинает петь вода.Пьер ЖЕВАР. СКОЛЬКО ВСЕГО СЛУЧИЛОСЬ…На самом деле все произошло не так, как в действительности.Джек СКИЛЛИНСТЕД.


Боевые корабли

В книге «Боевые корабли» даны только первые, общие сведения о кораблях Военно-морского флота: как они развивались, как устроены и вооружены, как они ведут бой. Автор ставил перед собой задачу – дать своему читателю первую книгу о боевых кораблях, вызвать у него интерес к дальнейшему, более углубленному изучению военно-морского дела, материальной части флота и его оружия.Прим. OCR: «Книги для детей надо писать как для взрослых, только лучше». Эта книга из таких. Вспомните, какая картинка Вам вспоминается при слове ФЛОТ? Скорее всего иллюстрация из этой книги.


Таинственная Полинезия

"Таинственная Полинезия" - книга чешского писателя и путешественника Милослава Стингла, широко известного советскому читателю своими книгами об индейцах Южной и Северной Америки ("Индейцы без томагавков", "Тайны индейских пирамид", "Поклоняющиеся звездам" и др.). Настоящая книга - увлекательно написанный очерк истории, этнографии и культуры Полинезии, основанный на большом научном материале и личных впечатлениях автора.


Лошадиный остров

Повесть из жизни ирландской деревни середины XX века, о подростках, об их столкновениях с местным богатеем.