Оригинал взят у russhatter в Электронная библиотека "История Росатома", технические комментарии
Предыдущий пост был о предмете, теперь о подходе. О том, что такое "Электронная Библиотека" вообще.
Хотите - считайте этот пост рекламой. Хотите - вводной статьёй.
* * *
Электронная библиотека - это не просто набор книг, это специализированная база данных. Функционал информационного комплекса разбивается на три компоненты:
1. Возможность читать материалы в удобном виде
2. Возможность искать по материалам
2'. Возможность видеть результаты поиска в режиме просмотра - подсветка найденного.
3. Возможности навигации - удобного перехода между материалами
* * *
Собственно, все эти три пункта (с добавкой 2') - и есть главное. И все они - главные. Из этого следует:
* если вы закачаете в свою какую-нибудь читалку много каких-нибудь разных книжек, у вас получится не электронная библиотека, а свалка книжек, в которых вы с трудом сможете разобраться, чуть только число книжек перевалит за какой-то порог, который Вы можете удержать в памяти - а это низкий порог
* если у вас есть куча отсканированных книжек, и вы можете их читать и читать - я вас поздравляю, но искать по ним вы не сможете, нужен текст
* если наоборот у вас есть куча электронных текстов, то... далеко не всегда вы сможете разобраться, что же и как написано в книжке, с которой эти тексты вбивались/распознавались в компьютер, нужны картинки страниц (если для беллетристики это не проблема, то для сколь-нибудь технических текстов, при появлении таблиц, иллюстраций, формул -.. это обстоятельство часто обессмысливает всю оцифровку)
* уже лет 10-20 в компьютерных технологиях мы имеем ситуацию, когда одну-две-три любимых книжки перевести в электронный вид может (почти) каждый, а вот сделать полноценный массив текстов - кошмарно тяжело
* наконец, если у вас имеется куча материалов в разнообразных форматах - я вас тоже поздравляю, но до большей части информации, которую вы накопили, добраться быстро у вас нет никакой возможности; по миллиону разных причин, вызванных разнообразием форматов, качества подготовки и всего прочего.
Выход - делать электронные библиотеки, в которых подготовка материала регламентирована и даёт определённые гарантии качества результата при заранее определённом уровне затрат. При этом учтите: уровень компьютерных технологий на сегодня не позволяет получать приемлемое качество результата без применения ручного труда, по крайней мере некоторые из операций подготовки могут быть выполнены только автоматизированно, а вовсе не автоматически. То есть, говоря простыми словами: это стоит приличных денег, и никакие не три копейки за книжку.
* * *
Мы готовим книжки в комбинированном формате - в принципе, это примерно то же, что научились делать уже больше 10 лет назад в Google Books и в средствах продажи в компании Amazon. Другое дело, что а) что-то за эти 10 лет не видать, чтобы этот подход распространился, по крайней мере в электронных библиотеках; б) у нас практикуется технология с существенно более высоким уровнем ручной работы квалифицированных редакторов - соответственно имеется реальные возможности по контролю качества результата. (Для продаж современных книг, как в Amazon, это всё не актуально, но для изданий XX века, и подавно для более ранних, это очень существенно.)
(Замечание. Выше сказано много утверждений, про которые можно спорить и оспаривать. Особенно это интересно тем, кто мало об этом спорил - а я вот много раз участвовал в таких спорах, и мне надоело. Всегда одно и тоже: да, есть миллион технических деталей, где-то что-то проходит, где-то что-то делается проще или мощнее - но тут тоже нужны оговорки... Ещё люди очень любят формулировать, что же они сами понимают под словами "электронная библиотека". И вариантов этого понимания очень много, и мало из них, извините, по делу: есть другие задачи, связанные с книжками, которые можно решать на том же компьютере, но они вовсе не обесценивают главную для меня и любимую задачу, которой я с перерывами занимаюсь уже 20 лет. В целом же - сколько хотите обвиняйте меня во вкусовщине, я принимаю эти попрёки - я всё-таки не соврал, с моей колокольни всё обстоит примерно так, как я сказал.)
* * *
Итак, комбинированный формат - это когда вы можете 1) читать книжку в самом аутентичном виде изображений страниц, 2) искать по текстам в этих книжках и 2') видеть подсвеченные в результате поиска места на страницах книжек.
В-общем, это именно то, что мы теперь умеем делать хорошо. У нас для этого есть технология.
Мы сделали на этой технологии Электронную Научную Педагогическую Библиотеку, сейчас вот открываем Электронную библиотеку "История Росатома".
И, надеемся, будем и дальше работать на этом поле. Тем, предметов - не просто много, их море. То только - ну, надеюсь, вы поняли - это всё незабесплатно. Это - довольно тяжёлый и утомительный труд. И если у вас есть идеи, где бы найти ресурсы на доброе дело - а то, что оно доброе, это даже не вопрос - заходите к нам на огонёк.
Разумеется, со временем, мы что-нибудь сделаем и с нашим самым любимым и самым почтенным детищем - ФЭБ. Надо только понимать, что это - действительно очень большая электронная библиотека, и перевести её в новый формат - задача действительно тяжёлая и масштабная. Когда-нибудь мы её решим.
* * *
Мой личный вклад в проект по атомной истории - весьма скромен. Моя команда трудилась эти полгода во всю - на программных средствах, которые я делал ранее. Кое-что, безусловно, для этого проекта я сделал, но довольно немного. Ну, а то, что я делаю сейчас - надеюсь, со временем тоже будет использовано. Довольно тонкое это дело - разрабатывать технологии, на которых потом разрабатывают проекты...
Хотите - считайте этот пост рекламой. Хотите - вводной статьёй.
* * *
Электронная библиотека - это не просто набор книг, это специализированная база данных. Функционал информационного комплекса разбивается на три компоненты:
1. Возможность читать материалы в удобном виде
2. Возможность искать по материалам
2'. Возможность видеть результаты поиска в режиме просмотра - подсветка найденного.
3. Возможности навигации - удобного перехода между материалами
* * *
Собственно, все эти три пункта (с добавкой 2') - и есть главное. И все они - главные. Из этого следует:
* если вы закачаете в свою какую-нибудь читалку много каких-нибудь разных книжек, у вас получится не электронная библиотека, а свалка книжек, в которых вы с трудом сможете разобраться, чуть только число книжек перевалит за какой-то порог, который Вы можете удержать в памяти - а это низкий порог
* если у вас есть куча отсканированных книжек, и вы можете их читать и читать - я вас поздравляю, но искать по ним вы не сможете, нужен текст
* если наоборот у вас есть куча электронных текстов, то... далеко не всегда вы сможете разобраться, что же и как написано в книжке, с которой эти тексты вбивались/распознавались в компьютер, нужны картинки страниц (если для беллетристики это не проблема, то для сколь-нибудь технических текстов, при появлении таблиц, иллюстраций, формул -.. это обстоятельство часто обессмысливает всю оцифровку)
* уже лет 10-20 в компьютерных технологиях мы имеем ситуацию, когда одну-две-три любимых книжки перевести в электронный вид может (почти) каждый, а вот сделать полноценный массив текстов - кошмарно тяжело
* наконец, если у вас имеется куча материалов в разнообразных форматах - я вас тоже поздравляю, но до большей части информации, которую вы накопили, добраться быстро у вас нет никакой возможности; по миллиону разных причин, вызванных разнообразием форматов, качества подготовки и всего прочего.
Выход - делать электронные библиотеки, в которых подготовка материала регламентирована и даёт определённые гарантии качества результата при заранее определённом уровне затрат. При этом учтите: уровень компьютерных технологий на сегодня не позволяет получать приемлемое качество результата без применения ручного труда, по крайней мере некоторые из операций подготовки могут быть выполнены только автоматизированно, а вовсе не автоматически. То есть, говоря простыми словами: это стоит приличных денег, и никакие не три копейки за книжку.
* * *
Мы готовим книжки в комбинированном формате - в принципе, это примерно то же, что научились делать уже больше 10 лет назад в Google Books и в средствах продажи в компании Amazon. Другое дело, что а) что-то за эти 10 лет не видать, чтобы этот подход распространился, по крайней мере в электронных библиотеках; б) у нас практикуется технология с существенно более высоким уровнем ручной работы квалифицированных редакторов - соответственно имеется реальные возможности по контролю качества результата. (Для продаж современных книг, как в Amazon, это всё не актуально, но для изданий XX века, и подавно для более ранних, это очень существенно.)
(Замечание. Выше сказано много утверждений, про которые можно спорить и оспаривать. Особенно это интересно тем, кто мало об этом спорил - а я вот много раз участвовал в таких спорах, и мне надоело. Всегда одно и тоже: да, есть миллион технических деталей, где-то что-то проходит, где-то что-то делается проще или мощнее - но тут тоже нужны оговорки... Ещё люди очень любят формулировать, что же они сами понимают под словами "электронная библиотека". И вариантов этого понимания очень много, и мало из них, извините, по делу: есть другие задачи, связанные с книжками, которые можно решать на том же компьютере, но они вовсе не обесценивают главную для меня и любимую задачу, которой я с перерывами занимаюсь уже 20 лет. В целом же - сколько хотите обвиняйте меня во вкусовщине, я принимаю эти попрёки - я всё-таки не соврал, с моей колокольни всё обстоит примерно так, как я сказал.)
* * *
Итак, комбинированный формат - это когда вы можете 1) читать книжку в самом аутентичном виде изображений страниц, 2) искать по текстам в этих книжках и 2') видеть подсвеченные в результате поиска места на страницах книжек.
В-общем, это именно то, что мы теперь умеем делать хорошо. У нас для этого есть технология.
Мы сделали на этой технологии Электронную Научную Педагогическую Библиотеку, сейчас вот открываем Электронную библиотеку "История Росатома".
И, надеемся, будем и дальше работать на этом поле. Тем, предметов - не просто много, их море. То только - ну, надеюсь, вы поняли - это всё незабесплатно. Это - довольно тяжёлый и утомительный труд. И если у вас есть идеи, где бы найти ресурсы на доброе дело - а то, что оно доброе, это даже не вопрос - заходите к нам на огонёк.
Разумеется, со временем, мы что-нибудь сделаем и с нашим самым любимым и самым почтенным детищем - ФЭБ. Надо только понимать, что это - действительно очень большая электронная библиотека, и перевести её в новый формат - задача действительно тяжёлая и масштабная. Когда-нибудь мы её решим.
* * *
Мой личный вклад в проект по атомной истории - весьма скромен. Моя команда трудилась эти полгода во всю - на программных средствах, которые я делал ранее. Кое-что, безусловно, для этого проекта я сделал, но довольно немного. Ну, а то, что я делаю сейчас - надеюсь, со временем тоже будет использовано. Довольно тонкое это дело - разрабатывать технологии, на которых потом разрабатывают проекты...