Здесь больше нет рекламы. Но могла бы быть, могла.

Автор Тема: Про электронные книги или как-то так...  (Прочитано 5473 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Ethillen

  • Гость
Возможно, название темы выбрано неверно, но это все по неразумению... :-[

А неразумение вот какого рода. У меня имеются книги, фотографии и некоторые другие документы дореволюционных времен. Соответственно, имеется желание сохранить все это дело, в том числе и в электронном виде. :) Если с фотографиями все более-менее ясно, то с книгами дело обстоит сложнее...

Итак, вопросы. Занимался ли кто-нибудь подобными вещами? Какие вы знаете виды, форматы и т. п. электронного оформления книг. Очевидно, что меня не очень устраивают форматы txt, doc и rtf. Хотелось бы узнать, что есть pdf и ему подобные и как всем этим пользоваться. А самое интересное - есть ли некая программа, которая позволяет сохранять одновременно и оригинальные изображения книги (обложка, иллюстрации), и в то же время распознает текст и позволяет его сохранять в виде отдельных страниц с исходным форматированием. Как-то так. Помогите, кто чем может. :)

               

               

Митрандир

  • Гость
Хороший формат *.tiff правда файлы большие. Офис 2003 в него сканированные документы сохраняет. А вообще просто аккуратно храни книги. ;)

               

               

Ethillen

  • Гость
Не, тифф - немного не то, что мне надо. Он чуть меньше, чем бмп, в котором все сейчас. А мне надо так чтобы это было не изображение, а как бы книжка.

Ну, а храню я и так все более, чем аккуратно. :)

               

               

Митрандир

  • Гость
MS Office document scanning сохраняет все в *.tiff, а MS Office Document Imaging читает ТЕКСТ из файла.
Есть Пдф. Сканируй Финридером от АББИИ.

               

               

Арвинд

  • Гость
Есть такой формат - "дежавю". Посмотри  :)

               

               

Mrrl

  • Гость
А в каком формате нынче сохраняет Файнридер?
Казалось бы, rtf тоже подойдет. Шрифты, разметку, форматирование (в какой-то мере) сохранить можно. Картинки вставить тоже. Конечно, если важно сохранить все переносы (разбивку на строки) и точное положение пометок на полях, то надо думать.
Документы с дореволюционных времен, говорите? И какая же распознавалка сейчас поймет ять с ижицей?
Может быть, есть смысл хранить отдельно страницы в исходном виде (кстати, сколько места занимают эти bmp? Какое разрешение? Не лучше ли перепаковать в jpeg с максимальным качеством?), а отдельно - распознанный текст (в rtf, doc или html).

               

               

Митрандир

  • Гость
Финридер в док, ртф и пдф сохраняет.
 
ижица была упразднена гораздо раньше. я так понимаю, книги уже 20-го века?

               

               

Lex Luger

  • Гость
Рекомендую PDF. Однозначно, более надежно, и главное удобно.

               

               

Mrrl

  • Гость
А чем его редактировать, если захочется исправить ошибки распознавания?

               

               

Lex Luger

  • Гость
Adobe Acrobat. Не думал, что на эту тему есть варианты.  :)

               

               

Ethillen

  • Гость
По-порядку.  :)

1) Сканирую я сканером. :)  А файнридер - его можно и потом применить. Во всяком случае, надо выяснить, нет ли лучших программ, прежде чем приступать к распознаванию.

2) Дежавю видел. Это у меня подподало под "пдф и ему подобные". Хотя я его издали видел, может это и сильно разные вещи. Посмотрим...

3) Я на самом деле уже начинаю сомневаться, что мне надо. Возможно, все закончится ртф_ом. Но там в некоторых местах есть такие красивости, которые никаким ртф_ом не передашь... Но мучиться в любом случае год придется. :(
Про распознавалки и ижицы - искренне верю, что если сильно захотеть, то очень даже можно. :)
Про размер - пока  отсканирована одна книга на 300 страниц. Каждый разворот занимает около 1 Мб. Все вместе, зажатое в зип - около 50 Мб. Но опасаюсь, как бы не пришлось потом все это пересканировать в лучшем качестве (сейчас - ЧБ). А джпег - он разве без потери качества?
А распознавать я скорее всего начну все равно с осени - сейчас надо разобраться, с помощью чего это делать и соответствующим образом скорректировать режим сканирования.

4)Файнридер сохраняет в пдф? Кажется, это то что надо!
Книги хоть и 20 века, но факт, что там наличествуют два варианта букв для "и", "е" и "ф". :)

5)6)7)Диалап в отстой.Я просто раньше не пробовал - может это и есть единственный вариант. :)

               

               

Mrrl

  • Гость
Да, отстал я от жизни. Был уверен, что существует только Acrobat Reader   ;D

jpeg, конечно, с потерей качества, но при максимальном уровне оно практически неощутимо.

               

               

Lex Luger

  • Гость
В картинках хранить книги не удобно, так как тогда нельзябудет пользоваться копи-пастом при необходимости.

               

               

talifero

  • Гость

Цитата из: Ethillen on 22-07-2006, 00:48:06
Но мучиться в любом случае год придется. :(



Вы  уже мчитесь (разве  нет?)
Нет ни одной программы которая на 100% отвечает запросу пользователя!
Возможно придется пользоватся несколькими форматами.
И на счет обьемов... для действительно хорошой вещи, никаких обьемов не жалко.

               

               

Митрандир

  • Гость
Finereader распознает хорошо, но и офисный неплохо. А в тиффе хранить удобно и текст распознается и картинка.

               

               

Ethillen

  • Гость

Цитата из: Lex Luger on 22-07-2006, 00:55:15
В картинках хранить книги не удобно, так как тогда нельзябудет пользоваться копи-пастом при необходимости.

Вот-вот. Поэтому-то я и хочу их "распознать".

Цитата из: talifero on 22-07-2006, 02:00:14
Нет ни одной программы которая на 100% отвечает запросу пользователя!
Возможно придется пользоватся несколькими форматами.
И на счет обьемов... для действительно хорошой вещи, никаких обьемов не жалко.

Точно нет программы? Мне кажется, что нечто, пусть и не известное широким массам, должно существовать. Делают же электронные версии всяких музейных книг. Неплохо бы посмотреть, как они это делают...

Цитата из: Митрандир on 22-07-2006, 19:35:20
Finereader распознает хорошо, но и офисный неплохо.
Офисный - это кто? ???

Возникла парочка вопросов:

1) Не в тему. Возможно ли из черно-белой фотографии сделать цветную? (Вариант "раскрась" не предлагать. :))
2) ПДФ. Как там редактировать текст? Я вроде не самый тупой человек на Земле, но кнопочки "Edit" в Acrobat Reader'e не нашел. Возникло подозрение, что он только для чтения и создан.
3) Дежавю. Я правильно понял, что она сохраняет только картинку, но при этом весьма неплохо приспособлена для хранения книг? Или там все-таки и распознавать можно?
4) Какие вы знаете программы для распознавания текста? Файнридер очень неплох. Сохраняет он тоже хорошо (в пдф). Но хотелось бы попробовать и другие варианты...

               

               

TembrZ

  • Гость
Посмотри может тебя устроит формат fb2 смотреть Haali Reader-ом
Здесь и текст и картинки и ссылки и словари

               

               

Mrrl

  • Гость
Acrobat Reader на то и Reader, что умеет только читать. Насколько я смог понять из предыдущего обсуждения, редактировать может некий Adobe Acrobat, но он, в отличие от Acrobat Reader, небесплатный.
  Одновременно с FineReader возник некий Cuneyform (или как-то так), но я не знаю, что с ним сейчас.

               

               

Митрандир

  • Гость

Цитата:
Офисный - это кто?
 
Это тот, который в МС Офис 2003
Microsoft Office Document Scanning сохраняет свежеотсканенный документ в ТИФФ, а Microsoft Office Document Imaging ТИФФ читает и вынимает отдельно текст, отдельно картинки. Сохраняет в ДОК и ХТМЛ.

               

               

Эотан

  • Гость
Дежавю - штука достаточно глюкавая, хотя и позволяет создавать достаточно сжатые книги с большим объёмом формул и графики. ACDSee у меня правда так и не стала дежавю смотреть, а специальная смотрелка для них частенько вылетала.

Мой совет таков: сканировать в тифы, затем получающиеся кипы сбивать в пдфы - и то и другое делается одним Фотошопом. Копипаст, кстати, из пдфа спокойно делается. Что до редактирования - а зачем же эти книги редактировать-то? :)
С офисом связываться не советую - очень уж тяжёлые и неудобные файлы получатся.