Форум Tolkien.SU
Паб «Eagle and Child» => Mad Gadgeteer's Lab => Тема начата: Ethillen от 21/07/2006, 14:03:15
-
Возможно, название темы выбрано неверно, но это все по неразумению... :-[
А неразумение вот какого рода. У меня имеются книги, фотографии и некоторые другие документы дореволюционных времен. Соответственно, имеется желание сохранить все это дело, в том числе и в электронном виде. :) Если с фотографиями все более-менее ясно, то с книгами дело обстоит сложнее...
Итак, вопросы. Занимался ли кто-нибудь подобными вещами? Какие вы знаете виды, форматы и т. п. электронного оформления книг. Очевидно, что меня не очень устраивают форматы txt, doc и rtf. Хотелось бы узнать, что есть pdf и ему подобные и как всем этим пользоваться. А самое интересное - есть ли некая программа, которая позволяет сохранять одновременно и оригинальные изображения книги (обложка, иллюстрации), и в то же время распознает текст и позволяет его сохранять в виде отдельных страниц с исходным форматированием. Как-то так. Помогите, кто чем может. :)
-
Хороший формат *.tiff правда файлы большие. Офис 2003 в него сканированные документы сохраняет. А вообще просто аккуратно храни книги. ;)
-
Не, тифф - немного не то, что мне надо. Он чуть меньше, чем бмп, в котором все сейчас. А мне надо так чтобы это было не изображение, а как бы книжка.
Ну, а храню я и так все более, чем аккуратно. :)
-
MS Office document scanning сохраняет все в *.tiff, а MS Office Document Imaging читает ТЕКСТ из файла.
Есть Пдф. Сканируй Финридером от АББИИ.
-
Есть такой формат - "дежавю". Посмотри :)
-
А в каком формате нынче сохраняет Файнридер?
Казалось бы, rtf тоже подойдет. Шрифты, разметку, форматирование (в какой-то мере) сохранить можно. Картинки вставить тоже. Конечно, если важно сохранить все переносы (разбивку на строки) и точное положение пометок на полях, то надо думать.
Документы с дореволюционных времен, говорите? И какая же распознавалка сейчас поймет ять с ижицей?
Может быть, есть смысл хранить отдельно страницы в исходном виде (кстати, сколько места занимают эти bmp? Какое разрешение? Не лучше ли перепаковать в jpeg с максимальным качеством?), а отдельно - распознанный текст (в rtf, doc или html).
-
Финридер в док, ртф и пдф сохраняет.
ижица была упразднена гораздо раньше. я так понимаю, книги уже 20-го века?
-
Рекомендую PDF. Однозначно, более надежно, и главное удобно.
-
А чем его редактировать, если захочется исправить ошибки распознавания?
-
Adobe Acrobat. Не думал, что на эту тему есть варианты. :)
-
По-порядку. :)
1) Сканирую я сканером. :) А файнридер - его можно и потом применить. Во всяком случае, надо выяснить, нет ли лучших программ, прежде чем приступать к распознаванию.
2) Дежавю видел. Это у меня подподало под "пдф и ему подобные". Хотя я его издали видел, может это и сильно разные вещи. Посмотрим...
3) Я на самом деле уже начинаю сомневаться, что мне надо. Возможно, все закончится ртф_ом. Но там в некоторых местах есть такие красивости, которые никаким ртф_ом не передашь... Но мучиться в любом случае год придется. :(
Про распознавалки и ижицы - искренне верю, что если сильно захотеть, то очень даже можно. :)
Про размер - пока отсканирована одна книга на 300 страниц. Каждый разворот занимает около 1 Мб. Все вместе, зажатое в зип - около 50 Мб. Но опасаюсь, как бы не пришлось потом все это пересканировать в лучшем качестве (сейчас - ЧБ). А джпег - он разве без потери качества?
А распознавать я скорее всего начну все равно с осени - сейчас надо разобраться, с помощью чего это делать и соответствующим образом скорректировать режим сканирования.
4)Файнридер сохраняет в пдф? Кажется, это то что надо!
Книги хоть и 20 века, но факт, что там наличествуют два варианта букв для "и", "е" и "ф". :)
5)6)7)Диалап в отстой.Я просто раньше не пробовал - может это и есть единственный вариант. :)
-
Да, отстал я от жизни. Был уверен, что существует только Acrobat Reader ;D
jpeg, конечно, с потерей качества, но при максимальном уровне оно практически неощутимо.
-
В картинках хранить книги не удобно, так как тогда нельзябудет пользоваться копи-пастом при необходимости.
-
Цитата из: Ethillen on 22-07-2006, 00:48:06
Но мучиться в любом случае год придется. :(
Вы уже мчитесь (разве нет?)
Нет ни одной программы которая на 100% отвечает запросу пользователя!
Возможно придется пользоватся несколькими форматами.
И на счет обьемов... для действительно хорошой вещи, никаких обьемов не жалко.
-
Finereader распознает хорошо, но и офисный неплохо. А в тиффе хранить удобно и текст распознается и картинка.
-
Цитата из: Lex Luger on 22-07-2006, 00:55:15
В картинках хранить книги не удобно, так как тогда нельзябудет пользоваться копи-пастом при необходимости.
Вот-вот. Поэтому-то я и хочу их "распознать".
Цитата из: talifero on 22-07-2006, 02:00:14
Нет ни одной программы которая на 100% отвечает запросу пользователя!
Возможно придется пользоватся несколькими форматами.
И на счет обьемов... для действительно хорошой вещи, никаких обьемов не жалко.
Точно нет программы? Мне кажется, что нечто, пусть и не известное широким массам, должно существовать. Делают же электронные версии всяких музейных книг. Неплохо бы посмотреть, как они это делают...
Цитата из: Митрандир on 22-07-2006, 19:35:20
Finereader распознает хорошо, но и офисный неплохо.
Офисный - это кто? ???
Возникла парочка вопросов:
1) Не в тему. Возможно ли из черно-белой фотографии сделать цветную? (Вариант "раскрась" не предлагать. :))
2) ПДФ. Как там редактировать текст? Я вроде не самый тупой человек на Земле, но кнопочки "Edit" в Acrobat Reader'e не нашел. Возникло подозрение, что он только для чтения и создан.
3) Дежавю. Я правильно понял, что она сохраняет только картинку, но при этом весьма неплохо приспособлена для хранения книг? Или там все-таки и распознавать можно?
4) Какие вы знаете программы для распознавания текста? Файнридер очень неплох. Сохраняет он тоже хорошо (в пдф). Но хотелось бы попробовать и другие варианты...
-
Посмотри может тебя устроит формат fb2 смотреть Haali Reader-ом
Здесь и текст и картинки и ссылки и словари
-
Acrobat Reader на то и Reader, что умеет только читать. Насколько я смог понять из предыдущего обсуждения, редактировать может некий Adobe Acrobat, но он, в отличие от Acrobat Reader, небесплатный.
Одновременно с FineReader возник некий Cuneyform (или как-то так), но я не знаю, что с ним сейчас.
-
Цитата:
Офисный - это кто?
Это тот, который в МС Офис 2003
Microsoft Office Document Scanning сохраняет свежеотсканенный документ в ТИФФ, а Microsoft Office Document Imaging ТИФФ читает и вынимает отдельно текст, отдельно картинки. Сохраняет в ДОК и ХТМЛ.
-
Дежавю - штука достаточно глюкавая, хотя и позволяет создавать достаточно сжатые книги с большим объёмом формул и графики. ACDSee у меня правда так и не стала дежавю смотреть, а специальная смотрелка для них частенько вылетала.
Мой совет таков: сканировать в тифы, затем получающиеся кипы сбивать в пдфы - и то и другое делается одним Фотошопом. Копипаст, кстати, из пдфа спокойно делается. Что до редактирования - а зачем же эти книги редактировать-то? :)
С офисом связываться не советую - очень уж тяжёлые и неудобные файлы получатся.
-
Цитата из: Эотан on 15-08-2006, 14:28:48
Что до редактирования - а зачем же эти книги редактировать-то? :)
Если pdf строится прямо из распознавалки - то исправлять ошибки сканирования. Может быть, слегка менять разметку - распознавалка может перепутать обычный шрифт, жирный и курсив, или напортачить с размерами.
-
Цитата из: Эотан on 15-08-2006, 14:28:48
Мой совет таков: сканировать в тифы, затем получающиеся кипы сбивать в пдфы - и то и другое делается одним Фотошопом. Копипаст, кстати, из пдфа спокойно делается.
И чего ты будешь копипастить оттуда тогда? Тифф? А потом его, например, на форум вставлять, ага 8)
-
Ага. Приаттаченными изображениями ;D Пуркуа бы и не па?
-
Тогда виноват, я недопонял :)
Если планируется не сохранять первоначальный исторический вид, а просто вытягивать текст, то тогда уже нет особой разницы, куда из файнридера текст совать - тут, по-моему, если графики немного, то .doc будет поменьше .pdf
-
.doc с полным сохранением разметки может быть и побольше, да и менее удобен, чем .pdf . Он все-таки предназначен слегка для других целей.
Это если цель - сохранять вид, приближенный к историческому, но иметь возможность вытягивать оттуда тексты.
-
Нет ничего проще - попробуйте отсканить страничек десять, и запихните их в ворд и пдф, сравните размер. Что до удобности .doc, то имхо, он архиваторами жмётся лучше.
-
Действительно. Если у кого есть Файнридер и ему не лень, может попробовать.
-
Попробовал.
PDF - 150 Kb
DOC - 158 Kb
RTF - 528 Kb
В данном случае pdf и doc почти одинаковы, но не будем забывать о том, что PDF расшифровывается как Portable Document Format ;)
-
А разметка и форматирование в doc сохранились?
-
Да, делал полное сохранение оформления документа. Другое дело, что никаких выкрутасов там не было.
-
А зазиповать не попробовал?
-
Нет. Это все равно опционально.
-
Корвин, а можно взглянуть, как оно сохранило оформление? У меня же там тоже, не везде выкрутасы... :)
Просто моя цель какая - не вид исторический сохранить (все эти грязные порванные страницы... :-[), а текст (само собой), шрифт (возможно тут тоже возникнут проблемы) и всяческие ухищрения с этим текстом и шрифтами. Ну и оформление (рамочки там всякие etc) c картинками.
Мне вот это все представляется в виде программки, при запуске которой появляется книжка (ну, обложка там...) и ее можно листать по всякому... :) При этом, конечно, листы будут не белые или одноцветные, а с соответствующей фактурой (или как оно там), неровными краями. И в динамиках еще чтоб шелест переворачиваемых страниц был... :) Мечтать не вредно. :(
-
Я сканировал обычный текст без всяких оформительских сложностей, так что и смотреть нечего :)
-
Цитата из: Ethillen on 18-08-2006, 17:54:17
Мне вот это все представляется в виде программки, при запуске которой появляется книжка (ну, обложка там...) и ее можно листать по всякому... :) При этом, конечно, листы будут не белые или одноцветные, а с соответствующей фактурой (или как оно там), неровными краями. И в динамиках еще чтоб шелест переворачиваемых страниц был... :) Мечтать не вредно. :(
Юзай flash. После 12 или более часов работы ;) ты публикуешь файл и флэш выдает сообщение что памяти не хватает :'( :'( :'(