Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”

Авторы:

Жанр: Программирование

Циклы: не входит в цикл

Формат: Полный

Всего в книге 4 страницы. У нас нет данных о годе издания книги.

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность. Книга завершается финалом, связывающим воедино темы и сюжетные линии, исследуемые на протяжении всей истории. В целом, книга представляет собой увлекательное и наводящее на размышления чтение, которое исследует человеческий опыт уникальным и осмысленным образом.

Читать онлайн Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”


Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”

Представленный Andy Spencer

5-ая Европейская Конференция Исследования и Продвинутой Технологии для Цифровых Библиотек

Дармштадт, Германия, 4-8 сентября 2001.

Многоязычные информационные ресурсы, состоящие из текстов на нескольких языках, которые трудно отразить одной 8-битовой системой кодирования, в настоящее время могут быть представлены схемой кодирования символов Unicode. Однако использование Unicode может привести к снижению точности системы Оптического Распознавания Символов (Optical Character Recognition) из-за наличия букв в разных алфавитах, изображаемых одинаково, но имеющих различную фонетическую нагрузку. Это ухудшение может существенно увеличить время необходимое для корректировки полученных текстов. Проект перевода в электронную форму двадцати летнего периода публикации “Летопись журнальных статей”, осуществляемый Цифровой библиотекой университета Индианы, представляет собой пример проекта библиотечной оцифровки многошрифтового информационного ресурса для кодировки которого был использован Unicode.

Спецификой данного проекта является использование нескольких шрифтов в рамках одного документа, обусловленное содержанием материалов, представленных в Летописи журнальных статей. Большинство электронно-текстовых документов, созданных в рамках библиотечных проектов оцифровки, содержат тексты, использующие один или два набора шрифтов. Для выполнения подобных задач обычно достаточно восьми-битовых систем кодирования, позволяющих отразить 256 символов. Данное количество возможных символов позволяет отразить заглавные и строчные буквы для более чем одного языка в пределах одной таблицы кодирования. В последние годы были разработаны различные 8-битовые таблицы кодирования для обмена и обработки информации, в диапазоне от основного латинского шрифта до различных комбинаций шрифтов или комбинированных символов. Таким образом одна таблица кодирования, например, может представлять текст на английском и русском языках таким образом, что символы английского языка находятся в нижнем конце цифрового ряда, а кириллические символы в верхнем. Такая восьми-битовая система кодирования приводит к использованию так называемой “ограниченной многоязычной” языковой поддержки [1]. Тем не менее 256 символов явно недостаточно для представления нескольких шрифтов в рамках одного документа. 

В каждом номере Летописи журнальных статей регистрируются публикации из различных областей знаний: науки об обществе, гуманитарные и точные науки, медицина, технология и промышленность, и так далее. В то время как основной объем текста “Летописи журнальных статей” использует русскую разновидность кириллического шрифта, во многих секциях точных наук библиографии присутствуют отдельные символы, слова и фразы латинского и греческого алфавита наряду с научными/математическими выражениями и формулами. В латинском шрифте встречающиеся повсюду в Летописи журнальных статей слова и фразы представляют собой комбинацию символов из западно-европейских таблиц кодировки (CP-1252, ISO- 8859-1) и восточноевропейских (CP-1250, ISO-8859-2). Например, ссылка на статью, напечатанную в советском журнале, представляющую собой перевод статьи опубликованной в другой стране, как правило содержит часть сведений относящихся к названию журнала, в котором опубликован оригинал статьи, на национальном языке. Большинство статей были первоначально опубликованы в журналах, издаваемых в странах бывшего СЭВ, однако есть также значительное число публикаций из стран Запада.  

В силу многошрифтовой специфики “Летописи журнальных статей” использование обычных кириллических наборов символов таких как CP-1251, KOI-8 или ISO-8859-5 было явно недостаточно. Для полного отражения содержания “Летописи журнальных статей” необходимо применение не только кириллического шрифта, но и основного латинского алфавита с западноевропейскими производными символами, а также восточноевропейских производных символов и греческого шрифта. Так, при избрании к примеру наборов символов Микрософт (таблиц кодирования) необходимо будет одновременно использовать как минимум следующие наборы символов: CP-1251, CP- 1252, CP-1250 и CP-1253. Если же избрать в качестве основы соответствующие наборы символов ISO, необходимо будет использовать символы ISO-8859-5, -1, -2, -7. Современные компьютерные web-брoузеры могут показывать только один набор символов, что очевидно неприемлемо для текстовых источников, использующих несколько различных шрифтов. В информационном источнике, содержащем относительно небольшое количество символов, не входящих в избранный базовый набор символов, возможны обходные приемы такие как вставки графических символов или ссылки на графические примитивы. Однако такие способы делают проблематичным компьютеризированный поиск по таким текстам. Существует более обширный набор символов, явившийся попыткой выйти за пределы лимита символов в 256 знаков, WGL-4 (Windows Glyph List 4), по сути объединяющий в себе таблицы кодирования Windows CP-1250, 1251, 1252, 1253 и 1254. Однако с учетом избрания Unicode специалистами Microsoft для Windows NT/2000 семейства операционных систем, WGL-4 в настоящее время используется редко [5].


С этой книгой читают
Создаем порт для FreeBSD своими руками. Часть II

Система сборки программ, используемая во FreeBSD, имеет значительно большие возможности, чем те, которые мы задействовали. Какие это возможности и как их использовать в своих портах?


Исчерпывающее руководство по написанию всплывающих подсказок
Автор: Роджер Джек

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Обработка баз данных на Visual Basic.NET

Это практическое руководство разработчика программного обеспечения на Visual Basic .NET и ADO.NET, предназначенное для создания приложений баз данных на основе WinForms, Web-форм и Web-служб. В книге описываются практические способы решения задач доступа к данным, с которыми сталкиваются разработчики на Visual Basic .NET в своей повседневной деятельности. Книга начинается с основных сведений о создании баз данных, использовании языка структурированных запросов SQL и системы управления базами данных Microsoft SQL Server 2000.


Платформа J2Me

Эта книга научит вас, как разрабатывать программное обеспечение для платформы J2ME компании «Sun Microsystems». Эта книга придерживается стиля учебного пособия, это не справочное руководство.Цель — дать вам твердую основу в понятиях и техниках, которая даст вам возможность решиться на самостоятельную разработку качественных приложений.


Симуляция частичной специализации
Автор: П Кузнецов

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Программирование приложений для мобильных устройств под управлением Android. Часть 1

Книга посвящена разработке программ для мобильных устройств под управлением операционной системы Android. Рассматривается создание приложений с использованием системных компонентов и служб Android. Приведены базовые данные о структуре приложений, об основных классах и их методах, сопровождаемые примерами кода. Часть 1 содержит шесть глав, описывающих основные принципы создания приложений, пользовательский интерфейс, полномочия приложений, а так же базовые классы: Activity, Intent, Fragment. Книга предназначена для программистов, владеющих языком программирования Java и желающих освоить написание приложений, работающих под ОС Android.


«Если», 2012 № 07 (233)

Евгений ЛУКИН. ПЕДАГОГИЧЕСКАЯ ПОЭМА ВТОРОГО ПОРЯДКАИзвестный писатель вернулся в родные места, но ситуация оказалась настолько фантастичной, что пришлось восстанавливать последовательность событий.Аллен СТИЛ. НАБЛЮДАТЕЛЬНЫЙ ПУНКТКеннеди и Хрущев об этом так и не узнали… Да и что бы они сумели сделать?Юджин МИРАБЕЛЛИ. ПОГОВОРИМ ПО-ИТАЛЬЯНСКИ?Вот что бывает, когда у вас в квартире начинает петь вода.Пьер ЖЕВАР. СКОЛЬКО ВСЕГО СЛУЧИЛОСЬ…На самом деле все произошло не так, как в действительности.Джек СКИЛЛИНСТЕД.


Боевые корабли

В книге «Боевые корабли» даны только первые, общие сведения о кораблях Военно-морского флота: как они развивались, как устроены и вооружены, как они ведут бой. Автор ставил перед собой задачу – дать своему читателю первую книгу о боевых кораблях, вызвать у него интерес к дальнейшему, более углубленному изучению военно-морского дела, материальной части флота и его оружия.Прим. OCR: «Книги для детей надо писать как для взрослых, только лучше». Эта книга из таких. Вспомните, какая картинка Вам вспоминается при слове ФЛОТ? Скорее всего иллюстрация из этой книги.


Таинственная Полинезия

"Таинственная Полинезия" - книга чешского писателя и путешественника Милослава Стингла, широко известного советскому читателю своими книгами об индейцах Южной и Северной Америки ("Индейцы без томагавков", "Тайны индейских пирамид", "Поклоняющиеся звездам" и др.). Настоящая книга - увлекательно написанный очерк истории, этнографии и культуры Полинезии, основанный на большом научном материале и личных впечатлениях автора.


Лошадиный остров

Повесть из жизни ирландской деревни середины XX века, о подростках, об их столкновениях с местным богатеем.


Поделиться мнением о книге