Форум Tolkien.SU

Паб «Eagle and Child» => Mad Gadgeteer's Lab => Тема начата: Ethillen от 21/07/2006, 14:03:15

Название: Про электронные книги или как-то так...
Отправлено: Ethillen от 21/07/2006, 14:03:15
Возможно, название темы выбрано неверно, но это все по неразумению... :-[

А неразумение вот какого рода. У меня имеются книги, фотографии и некоторые другие документы дореволюционных времен. Соответственно, имеется желание сохранить все это дело, в том числе и в электронном виде. :) Если с фотографиями все более-менее ясно, то с книгами дело обстоит сложнее...

Итак, вопросы. Занимался ли кто-нибудь подобными вещами? Какие вы знаете виды, форматы и т. п. электронного оформления книг. Очевидно, что меня не очень устраивают форматы txt, doc и rtf. Хотелось бы узнать, что есть pdf и ему подобные и как всем этим пользоваться. А самое интересное - есть ли некая программа, которая позволяет сохранять одновременно и оригинальные изображения книги (обложка, иллюстрации), и в то же время распознает текст и позволяет его сохранять в виде отдельных страниц с исходным форматированием. Как-то так. Помогите, кто чем может. :)

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Митрандир от 21/07/2006, 16:53:36
Хороший формат *.tiff правда файлы большие. Офис 2003 в него сканированные документы сохраняет. А вообще просто аккуратно храни книги. ;)

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Ethillen от 21/07/2006, 17:18:11
Не, тифф - немного не то, что мне надо. Он чуть меньше, чем бмп, в котором все сейчас. А мне надо так чтобы это было не изображение, а как бы книжка.

Ну, а храню я и так все более, чем аккуратно. :)

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Митрандир от 21/07/2006, 17:38:55
MS Office document scanning сохраняет все в *.tiff, а MS Office Document Imaging читает ТЕКСТ из файла.
Есть Пдф. Сканируй Финридером от АББИИ.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Арвинд от 21/07/2006, 17:44:05
Есть такой формат - "дежавю". Посмотри  :)

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Mrrl от 21/07/2006, 17:49:41
А в каком формате нынче сохраняет Файнридер?
Казалось бы, rtf тоже подойдет. Шрифты, разметку, форматирование (в какой-то мере) сохранить можно. Картинки вставить тоже. Конечно, если важно сохранить все переносы (разбивку на строки) и точное положение пометок на полях, то надо думать.
Документы с дореволюционных времен, говорите? И какая же распознавалка сейчас поймет ять с ижицей?
Может быть, есть смысл хранить отдельно страницы в исходном виде (кстати, сколько места занимают эти bmp? Какое разрешение? Не лучше ли перепаковать в jpeg с максимальным качеством?), а отдельно - распознанный текст (в rtf, doc или html).

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Митрандир от 21/07/2006, 18:05:14
Финридер в док, ртф и пдф сохраняет.
 
ижица была упразднена гораздо раньше. я так понимаю, книги уже 20-го века?

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Lex Luger от 22/07/2006, 00:29:53
Рекомендую PDF. Однозначно, более надежно, и главное удобно.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Mrrl от 22/07/2006, 00:34:02
А чем его редактировать, если захочется исправить ошибки распознавания?

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Lex Luger от 22/07/2006, 00:40:45
Adobe Acrobat. Не думал, что на эту тему есть варианты.  :)

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Ethillen от 22/07/2006, 00:48:06
По-порядку.  :)

1) Сканирую я сканером. :)  А файнридер - его можно и потом применить. Во всяком случае, надо выяснить, нет ли лучших программ, прежде чем приступать к распознаванию.

2) Дежавю видел. Это у меня подподало под "пдф и ему подобные". Хотя я его издали видел, может это и сильно разные вещи. Посмотрим...

3) Я на самом деле уже начинаю сомневаться, что мне надо. Возможно, все закончится ртф_ом. Но там в некоторых местах есть такие красивости, которые никаким ртф_ом не передашь... Но мучиться в любом случае год придется. :(
Про распознавалки и ижицы - искренне верю, что если сильно захотеть, то очень даже можно. :)
Про размер - пока  отсканирована одна книга на 300 страниц. Каждый разворот занимает около 1 Мб. Все вместе, зажатое в зип - около 50 Мб. Но опасаюсь, как бы не пришлось потом все это пересканировать в лучшем качестве (сейчас - ЧБ). А джпег - он разве без потери качества?
А распознавать я скорее всего начну все равно с осени - сейчас надо разобраться, с помощью чего это делать и соответствующим образом скорректировать режим сканирования.

4)Файнридер сохраняет в пдф? Кажется, это то что надо!
Книги хоть и 20 века, но факт, что там наличествуют два варианта букв для "и", "е" и "ф". :)

5)6)7)Диалап в отстой.Я просто раньше не пробовал - может это и есть единственный вариант. :)

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Mrrl от 22/07/2006, 00:51:45
Да, отстал я от жизни. Был уверен, что существует только Acrobat Reader   ;D

jpeg, конечно, с потерей качества, но при максимальном уровне оно практически неощутимо.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Lex Luger от 22/07/2006, 00:55:15
В картинках хранить книги не удобно, так как тогда нельзябудет пользоваться копи-пастом при необходимости.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: talifero от 22/07/2006, 02:00:14

Цитата из: Ethillen on 22-07-2006, 00:48:06
Но мучиться в любом случае год придется. :(



Вы  уже мчитесь (разве  нет?)
Нет ни одной программы которая на 100% отвечает запросу пользователя!
Возможно придется пользоватся несколькими форматами.
И на счет обьемов... для действительно хорошой вещи, никаких обьемов не жалко.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Митрандир от 22/07/2006, 19:35:20
Finereader распознает хорошо, но и офисный неплохо. А в тиффе хранить удобно и текст распознается и картинка.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Ethillen от 31/07/2006, 15:13:21

Цитата из: Lex Luger on 22-07-2006, 00:55:15
В картинках хранить книги не удобно, так как тогда нельзябудет пользоваться копи-пастом при необходимости.

Вот-вот. Поэтому-то я и хочу их "распознать".

Цитата из: talifero on 22-07-2006, 02:00:14
Нет ни одной программы которая на 100% отвечает запросу пользователя!
Возможно придется пользоватся несколькими форматами.
И на счет обьемов... для действительно хорошой вещи, никаких обьемов не жалко.

Точно нет программы? Мне кажется, что нечто, пусть и не известное широким массам, должно существовать. Делают же электронные версии всяких музейных книг. Неплохо бы посмотреть, как они это делают...

Цитата из: Митрандир on 22-07-2006, 19:35:20
Finereader распознает хорошо, но и офисный неплохо.
Офисный - это кто? ???

Возникла парочка вопросов:

1) Не в тему. Возможно ли из черно-белой фотографии сделать цветную? (Вариант "раскрась" не предлагать. :))
2) ПДФ. Как там редактировать текст? Я вроде не самый тупой человек на Земле, но кнопочки "Edit" в Acrobat Reader'e не нашел. Возникло подозрение, что он только для чтения и создан.
3) Дежавю. Я правильно понял, что она сохраняет только картинку, но при этом весьма неплохо приспособлена для хранения книг? Или там все-таки и распознавать можно?
4) Какие вы знаете программы для распознавания текста? Файнридер очень неплох. Сохраняет он тоже хорошо (в пдф). Но хотелось бы попробовать и другие варианты...

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: TembrZ от 31/07/2006, 16:04:23
Посмотри может тебя устроит формат fb2 смотреть Haali Reader-ом
Здесь и текст и картинки и ссылки и словари

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Mrrl от 31/07/2006, 16:27:56
Acrobat Reader на то и Reader, что умеет только читать. Насколько я смог понять из предыдущего обсуждения, редактировать может некий Adobe Acrobat, но он, в отличие от Acrobat Reader, небесплатный.
  Одновременно с FineReader возник некий Cuneyform (или как-то так), но я не знаю, что с ним сейчас.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Митрандир от 11/08/2006, 00:10:58

Цитата:
Офисный - это кто?
 
Это тот, который в МС Офис 2003
Microsoft Office Document Scanning сохраняет свежеотсканенный документ в ТИФФ, а Microsoft Office Document Imaging ТИФФ читает и вынимает отдельно текст, отдельно картинки. Сохраняет в ДОК и ХТМЛ.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Эотан от 15/08/2006, 14:28:48
Дежавю - штука достаточно глюкавая, хотя и позволяет создавать достаточно сжатые книги с большим объёмом формул и графики. ACDSee у меня правда так и не стала дежавю смотреть, а специальная смотрелка для них частенько вылетала.

Мой совет таков: сканировать в тифы, затем получающиеся кипы сбивать в пдфы - и то и другое делается одним Фотошопом. Копипаст, кстати, из пдфа спокойно делается. Что до редактирования - а зачем же эти книги редактировать-то? :)
С офисом связываться не советую - очень уж тяжёлые и неудобные файлы получатся.


               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Mrrl от 15/08/2006, 14:32:39

Цитата из: Эотан on 15-08-2006, 14:28:48
Что до редактирования - а зачем же эти книги редактировать-то? :)



Если pdf строится прямо из распознавалки - то исправлять ошибки сканирования. Может быть, слегка менять разметку - распознавалка может перепутать обычный шрифт, жирный и курсив, или напортачить с размерами.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Corwin Celebdil от 15/08/2006, 14:38:02

Цитата из: Эотан on 15-08-2006, 14:28:48
Мой совет таков: сканировать в тифы, затем получающиеся кипы сбивать в пдфы - и то и другое делается одним Фотошопом. Копипаст, кстати, из пдфа спокойно делается.


И чего ты будешь копипастить оттуда тогда? Тифф? А потом его, например, на форум вставлять, ага 8)


               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Mrrl от 15/08/2006, 14:40:25
Ага. Приаттаченными изображениями  ;D Пуркуа бы и не па?

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Эотан от 15/08/2006, 15:13:02
Тогда виноват, я недопонял :)
Если планируется не сохранять первоначальный исторический вид, а просто вытягивать текст, то тогда уже нет особой разницы, куда из файнридера текст совать - тут, по-моему, если графики немного, то .doc будет поменьше .pdf

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Mrrl от 15/08/2006, 15:26:07
.doc с полным сохранением разметки может быть и побольше, да и менее удобен, чем .pdf . Он все-таки предназначен слегка для других целей.
  Это если цель - сохранять вид, приближенный к историческому, но иметь возможность вытягивать оттуда тексты.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Эотан от 15/08/2006, 15:33:56
Нет ничего проще - попробуйте отсканить страничек десять, и запихните их в ворд и пдф, сравните размер. Что до удобности .doc, то имхо, он архиваторами жмётся лучше.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Mrrl от 15/08/2006, 15:51:57
Действительно. Если у кого есть Файнридер и ему не лень, может попробовать.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Corwin Celebdil от 15/08/2006, 17:34:04
Попробовал.
PDF - 150 Kb
DOC - 158 Kb
RTF - 528 Kb
В данном случае pdf и doc почти одинаковы, но не будем забывать о том, что PDF расшифровывается как Portable Document Format ;)

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Mrrl от 15/08/2006, 17:36:46
А разметка и форматирование в doc сохранились?

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Corwin Celebdil от 15/08/2006, 17:56:44
Да, делал полное сохранение оформления документа. Другое дело, что никаких выкрутасов там не было.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Lex Luger от 15/08/2006, 23:21:17
А зазиповать не попробовал?

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Corwin Celebdil от 16/08/2006, 10:32:38
Нет. Это все равно опционально.

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Ethillen от 18/08/2006, 17:54:17
Корвин, а можно взглянуть, как оно сохранило оформление? У меня же там тоже, не везде выкрутасы... :)

Просто моя цель какая - не вид исторический сохранить (все эти грязные порванные страницы... :-[), а текст (само собой), шрифт (возможно тут тоже возникнут проблемы) и всяческие ухищрения с этим текстом и шрифтами. Ну и оформление (рамочки там всякие etc) c картинками.

Мне вот это все представляется в виде программки, при запуске которой появляется книжка (ну, обложка там...) и ее можно листать по всякому... :)  При этом, конечно, листы будут не белые или одноцветные, а с соответствующей фактурой (или как оно там), неровными краями. И в динамиках еще чтоб шелест переворачиваемых страниц был... :)  Мечтать не вредно. :(

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Corwin Celebdil от 22/08/2006, 16:15:50
Я сканировал обычный текст без всяких оформительских сложностей, так что и смотреть нечего :)

               

               
Название: Re: Про электронные книги или как-то так...
Отправлено: Митрандир от 24/08/2006, 19:54:04

Цитата из: Ethillen on 18-08-2006, 17:54:17
Мне вот это все представляется в виде программки, при запуске которой появляется книжка (ну, обложка там...) и ее можно листать по всякому... :)  При этом, конечно, листы будут не белые или одноцветные, а с соответствующей фактурой (или как оно там), неровными краями. И в динамиках еще чтоб шелест переворачиваемых страниц был... :)  Мечтать не вредно. :(



Юзай flash. После 12 или более часов работы ;) ты публикуешь файл и флэш выдает сообщение что памяти не хватает :'( :'( :'(