Всех косяков при распозновании не вычистить в принципе. А один знак диакритики, поставленный не под тем углом, может сыграть роковую роль. Поэтому читать нужно только сканы.
Лишние же пробелы и переносы — это уже претензии к тому, кто распозновал текст. В соб. соч. Толстого такого нет.
Хотя, для поиска по тексту в вашем примере всё есть. А если вам нужно сделать цитату, то уж минутку на вычитку-сверку найдёте.
В общем, читать распознанные тексты — вынужденный и оправданный шаг во времена тарифицированного траффика. Но полагаться на них в век безлимитных тарифов как-то неприлично.