Ким Вельтман, Александр Чуранов, Василий Чуранов, Андрей Котов

Новые комбинации лекций, книг и баз данных

EVA 2004 Москва

 

Краткий обзор

 

Возможно, исторически лекции появились тогда, когда родился язык. Печатные книги приобрели важное значение в XV веке. Базы данных, как новая форма организации знаний, появились в XX веке. До сегодняшнего дня эти формы традиционно существовали отдельно друг от друга. Интернет дал возможность соединять формы и методы.

 

Лекции становятся связанными с базами данных так же, как и книги. Форма книг меняется и последовательно развивается как гипер-связанная (hyper-linked) книга, гипер-иллюстрированная (hyper-illustrated), омни-связанная (omni-linked) и динамическая книга. Развитие баз данных происходит от единых, постоянных структур, которые определяют нисходящий набор стандартизированных заранее определенных полей к динамическим структурам, использующим различные правила для доступа к локальным, региональным, национальным и интернациональным источникам. Такие базы данных стимулируют развитие культурного и исторического разнообразия. Объединение лекций, книг и баз данных посредством Интернет приводит к появлению новых связей между персональными, обобщенными и устойчивыми знаниями.

 

Идеи и данная статья являются разработкой Кима Вельтмана. Техническая реализация идеи и доклад  представлен тремя студентами из Смоленска, которые являются соавторами разработки.

 

1.      Введение

 

Традиционно лекции, книги и базы данных относились к различным медиа областям. Лекции были устными, книги печатными, а базы данных были электронными. Также все три относились к различным видам знаний. Лекции - к персональным знаниям, книги - к устойчивым знаниям, а базы данных обычно содержали обобщенные знания.

 

Устные лекции, печатные книги и электронные базы данных, без сомнения, продолжат свое существование в традиционном виде. Но, вместе с этим, попытка объединения их посредством Интернет выявляет дополнительные возможности лекций, книг и баз данных. Комбинация этих трех форм позволяет перевести организацию знаний на качественно новый уровень. Идея разработки состоит в новой возможности интеграции персональных, обобщенных и устойчивых знаний.

 

2.      Лекции

 

Лекции традиционно были устными. В XX веке началось использование сначала черно-белых слайдов, затем цветных слайдов, и к настоящему моменту в нашу жизнь широко вошло использование других мультимедиа элементов, таких как звук, видео, анимация и т.д. За последние 10 лет наиболее широкое распространение получила программа PowerPoint, как альтернатива традиционным слайдам. Довольно популярными стали online лекции в формате PowerPoint. Так же был предпринят ряд попыток связать разрозненные коллекции слайд-лекций в единые банки данных. [1]

 

Как в традиционных слайдах, так и в слайдах PowerPoint изображения имеют подписи. On-line версии таких изображений часто имеют единое описание, подлежащее обсуждению. И поэтому эта информация остается за пределами содержимого. Но положение меняется. Минимальная информация о художнике/авторе и картине/книге может быть связана с базой данных художников, писателей, картин или книг. Конечно, такой список изображений может быть намного полезнее, чем обычные иллюстрации лекций. Каждое изображение, каждый слайд может стать отправной точной для детального изучения ее автора или темы. Методы поиска в базах данных можно также расширить до лекций.

 

Иллюстративный материал лекций также очень важен и для книг. Но включение большого количества изображений в книгу традиционно невозможно из-за дороговизны печати. В электронных формах книг ситуация меняется. Мы увидим это ниже на примере гипер-иллюстрированных книг (3.1.i). В электронных формах появляется  возможность связывать персональные знания лекций с обобщенными знаниями, используя распределённые базы данных.

 

3.      Книги

 

Термин «книга» пришел к нам от греческого слова biblos, от которого также произошло слово «библия». В Китае старейшая печатная книга (868 г.) DiamondSutraположила начало новой форме выражения знаний, которая стала очень важной в период ренессанса в Европе (XV в.). Как пишет Маршал МакЛуин: «Печатные книги внесли огромный вклад в развитие доступности знаний, но в тоже время установили ограничения в виде линейности и стационарности их представления».

 

Ранние электронные книги в большей степени были копиями печатных книг. В течение 1970-х и 1980-х годов с развитием языков разметок, особенно SGML (StandardGeneralisedMarkupLanguage), появилась возможность отделить формы представления данных от самих данных. Такое решение оказалось очень интересным, но, к сожалению, очень сложным для обычных пользователей.[2] С развитием технологий была предпринята попытка создать более простое решение, которое позволило бы использовать только основные возможности SGML. Этим решением стал язык XML (eXtenxibleMarkupLanguage). XML позволил создавать свои языки разметки для более узких дисциплин, таких, как математика, химия и др. XML был частью глобального взгляда в направлении Единого описания ресурсов (ResourceDescriptionFramework). Но, увы, такое решение все равно оставалось слишком сложным для конечного пользователя. Поэтому начал повышаться интерес к новым решениям в области метаданных – ссылкам.

 

3.1.  Ссылки

 

Вначале упоминание о гипертексте и гиперссылках, сделанное Дугом Ингелбартом (DougEngelbart) и разработанное Тедом Нельсоном (TedNelson), оставалось в виде обычных сносок, при помощи которых слово в тексте связывалось с другим набором слов в конце текста или на другом сайте. Гипертекстовые и гипермедиа направления продолжают развиваться. В последнее время идет развитие трех новых форм ссылок, а именно: гипер-иллюстрации, омни-ссылки и динамические ссылки.

 

3.1.i. Гипер-иллюстрации

 

Несмотря на многие достижения в области печати, публикация цветных изображений остается очень дорогой, поэтому многие книги ограничиваются минимальным набором цветных иллюстраций. Отсюда использование цветных изображений остается одним из серьезных ограничений печатных книг. Электронная версия той же книги может быть точной копией печатной книги, но вместе с тем иметь много дополнительных возможностей. Используя гипер-иллюстрации, автор может ознакомить читателя с различными сериями изображений к его книге, где непрофессионал может ознакомиться с ограниченным числом картинок, а эксперт – с сериями более сложных иллюстраций. В свою очередь эти серии могут быть связаны с другими сериями изображений.

 

С того времени, как печатная версия книги, описывающая, например, виртуальную реальность, предлагает одну иллюстрацию, гипер-иллюстрированная книга может предоставить пять иллюстрированных примеров и дать возможность заинтересованному читателю просмотреть лекции с более 100 различными примерами виртуальной реальности. Это намного больше, чем просто преодоление ограничений печатных книг. Гипер-иллюстрированная книга предоставляет нам возможность делить изображения на различные сложные слои, которые предназначены для профессиональных читателей. Так, серии изображений, связанных с книгами, могут сначала привести читателя к лекциям, а затем вернуть к обсуждениям в статью или книгу посредством многоязычных баз данных.

 

3.1.ii. Омни-ссылки

 

Гипер-ссылки устанавливают связь между определенными словами в тексте и некоторой информацией/знаниями какого-либо источника. Такого типа ссылки очень важны, так как они могут помочь установить специальный набор связей (например, все авторы в тексте, либо ссылки по нужной теме или ссылки с определенных ключевых слов). Тем не менее, как луч света, освещающий некоторые области, он оставляет часть во тьме.

 

Корпорацией SUMS был разработан прототип омни-ссылок, где каждое слово в тексте связанно гипер-ссылкой, при этом не подсвечиваясь синим цветом, как обычные ссылки. Например, каждое слово в книге о Леонардо да Винчи может быть связано с таким же словом в базе данных манускриптов, что дает возможность найти все манускрипты Леонародо, где встречается данное слово. Пока, правда, это имеет свои ограничения, связанные с использованием не несущих смысла частей речи (предлоги, местоимения и т.д.), но очень эффективно в случае существенных терминов, таких как четыре силы природы, выделенные Леонардо (сила, движение, удар и вес). Создание ссылок автоматически посредством алгоритма гораздо эффективнее, нежели создание ссылок вручную.

 

Гиперссылки обычно имеют связь один к одному, между словом и объектом (текст, веб-сайт, изображение и т.д.). Омни-ссылки могут работать с различными уровнями знаний: одно и тоже слово, имеющее омни-ссылку, может быть связанно с 1) термином из классификационной системы; 2) определением в словаре; 3) объяснением в энциклопедии; 4) заголовком в каталоге или библиографии; 5) частичным содержанием в форме резюме или обзора; 6) полным содержанием статьи или книги. Таким образом, омни-ссылки дают возможность получить доступ к знаниям на разных уровнях.

 

Изначально такие ссылки на определения будут просто ссылаться на определения из образцовых словарей таких, как Оксфордский словарь Английского языка. Далее, это может быть расширено до этимологических словарей (таких как французский словарь Gaudefroy или немецкий – Grimm). В конечном итоге, это приведет к различию образных, номинальных и реальных определений.[3] Как таковой семантический интернет даст возможность доступа к значениям, различающимся исторически и географически.

 

Со временем данная разработка в отношении различных уровней знаний может быть интегрирована в различные стратегии поиска: 1) простейшая стратегия – это осуществление поиска, следуя справочным указаниям; 2) прямая стратегия поиска по одному слову; 3) поиск по индивидуальным терминам - этот метод дает возможность искать в пространстве связанных терминов по всему миру; 4) поиск по полям баз данных расширяет возможности поиска, включая в него темы, используемые профессионалами в данной области; 5) предметные заголовки расширяют поиск , включая в него стандартные категории научных институтов; 6) классификационные заголовки дают возможность осуществляя поиск, отслеживать положение искомого термина в классификационной системе; 7) сравнительные классификации расширяют этот процесс, включая в область поиска альтернативные системы организации знаний; 8) поиск, построенный на отношениях; 9) поиск на основе онтологий. Используя этот подход к знаниям, индивидуальные книги становятся все больше и больше динамическими или, как говорил, Тед Нельсон – с коллективной памятью человечества.

 

3.1.iii. Динамические ссылки: прошлое и будущее

 

Маршал МакЛуин говорит о парадоксах печатных изданий. Они имели огромное преимущество в «фиксации» текста в смысле его установления, как официальной версии, которая не менялась. В тоже время версия зафиксированного текста подразумевала то, что никто не мог стереть или переписать часть текста. Любое изменение в тексте означало перепечатывание или новое издание.

 

Идеи использования динамически изменяемых фрагментов уходят к 1986 году, когда Интернет только начинался в Англии, и когда Алан Кей предложил идею динамической книги (Dynabook)[4]. C тех пор была проделана масса работ в области динамических ссылок и библиотек динамических ссылок. Сегодня даже MicrosoftWord имеет возможность автоматически отслеживать даты и изменять их.

 

Так же, как промышленный мир говорит о самозаживляемых продуктах, мир ученых размышляет о самообновляемых публикациях. При этом, быстро обновляемые статистические данные, такие как наибыстрейший компьютер или количество пользователей интернет (200 миллионов к 2000 году и 800 миллионов к 2004 году) могли бы обновляться автоматически каждый раз, когда официальный источник обновляет у себя эту информацию.

 

Интуитивно работу динамических книг представить довольно просто, но серьезные попытки создать динамическую книгу требуют существенных практических изысканий. В прошлом авторы обычно сосредотачивали внимание на точной информации, которая больше всего склонна устаревать. В будущем авторы смогут больше обращать внимание на более общие утверждения, которые будут подкреплены ссылками на официальные сайты с обновляемой информацией.

 

4.      Базы данных

 

Базы данных появились, как серия новых методов организации знаний, в 1970 году, когда люди заметили, что множественные поля могут быть скомпонованы различными путями без необходимости полной реорганизации текста, как это было с печатной информацией. В 1980-х годах связанные базы данных, основанные на простых объектных связях, начали устаревать. В 1990-х годах передовое внимание было приковано к базам данных (например, Mylopoulos)[5] на основе смысловых отношений, таких как разбиение и обобщение. Еще позже внимание также обратилось и к несвязанным базам данных.

 

Среди всех этих разработок был еще более существенный сдвиг в области баз данных. 30 лет назад использовалось программное обеспечение, которое, работая с одной системой, не могло читать информацию из другой. Ряд попыток в направлении организации возможного взаимодействия привел к созданию XML, который совместно с использованием открытых исходных кодов дал возможность убрать эти ограничения. Теперь все больше и больше увеличивается взаимодействие между различными базами данных, а также между базами данных, электронными книгами и лекциями.

 

5.      Выводы

 

Все чаще встречаются дискуссии, где интернет, телефония и телевидение обсуждаются как единое целое. Сейчас тенденция развития ведет к тому, что различные информационные каналы, которые сейчас остаются разделенными, через 20 лет сойдутся в единую систему. Также эта тенденция применима и к различным формам организации и совместному использованию знаний, а именно лекциям, книгам и базам данных, которые все больше и больше становятся связанными друг с другом. На базе универсальной системы медиа-поиска SUMS (SystemforUniversalMediaSearching), которая является прототипом Универсальной системы медиа-доступа SUMMA (SystemforUniversalMediaAccess) был разработан пример взаимодействия лекций, книг и баз данных. Данную систему планируется использовать в ряде курсов в новом Европейском Университете Культуры, который будет иметь филиалы в Берлине, Болоньи, Мадриде и Париже.[6]

 



1 Cf. the Prometheus project. See: http://www.prometheus-bildarchiv.de/

[2] Even if everyone could be an author, everyone cannot be the equivalent of an editor, a typesetter, a layout person, and the many other professions entailed in producing documents such as books.

[3]For a more detailed discussion see the author’s “Towards a Semantic Web for Culture,” 

JoDI (Journal of Digital Information, Oxford, Volume 4, Issue 4, Article No. 255, 2004-03-15, p. 19 (Special issue on New Applications of Knowledge Organization Systems.)

See: http://jodi.ecs.soton.ac.uk/Articles/v04/i04/Veltman/

[4]On Alan Kay and the Dynabook see: http://www.artmuseum.net/w2vr/archives/Kay/01_Dynabook.html

[5] John Mylopoulos. See: http://www.cs.toronto.edu/DCS/People/Faculty/jm.html

[6] Cf. the author’s lecture at EVA Moscow 2004 on International Trends in Cultural Repositories.