SpaceLib

Новости Главная Введение Программы Загрузка Карта сайта

QViewFile

QViewFile -  умеет создавать наборы изображений страниц для  документов PDF и DJVU. Предлагает удобную среду для поиска и  ручной сортировки книг, журналов и любых других документов.

  Рассмотрим процесс ручной сортировки с минимальным числом действий. Программа показывает документ из списка, пользователь принимает решение:

  "клавиша +" сохранить документ, дав ему имя,

 "клавиша - " удалить документ   . Все!

 Теперь рассмотрим оптимальный, с точки зрения человеческой психологии минимальный набор действий при ручной сортировке. На самом деле при сортировке документов,  в нашем случае, человек решает две разные задачи.

Задача первая: оценить нужен ли ему документ или нет (удалить - оставить). Первый просмотр всех документов.
Задача вторая: если документ нужен, дает ему осмысленное имя, т.е. перенести файл в папку с именем документа. Второй просмотр  документов, оставшихся после первого просмотра.

  Т.е. сначала надо решать более простую бинарную задачу удалить - оставить. Потом,  решать задачу  присваивания имен документам. Программа QViewFile  позволяет вам избрать любую стратегию при сортировке документов. Я выбрал следующую. Создаю наборы изображений первых страниц документов. Открываю их на просмотр. Если документ нужен нажимаю "стрелка вниз", т.е. перехожу на следующий документ, если документ не нужен нажимаю "клавишу - " т.е. удаляю его. Когда первой страницы вам недостаточно для оценки документа используйте клавиши "стрелка вправо" или "стрелка влево" для смены страниц в пределах одного документа. При цене 8 рублей за 4.5 ГБайта (стоимость dvd), хочется оставить, для сохранения в библиотеке, как можно больше документов. Не поддавайтесь соблазну! Время потраченное на присвоение имени одному документу может быть от  30 до 60 секунд. А это очень много. Таких просмотров перед сортировкой я делаю два, с периодом между ними в несколько дней. Пауза между двумя бинарными просмотрами позволяет несколько иначе оценить значимость документа. Далее опять делаю перерыв и приступаю уже к чистой сортировке, т.е. присвоению имен документам.

 Для начала работы откройте панель настроек через меню "работа с документами".

 Для просмотра документов в отдельном окне вам необходимо установить Acrobat  Reader 7.0 и WinDjView-0.3.5.exe, если  у вас их еще нет. Эти программы бесплатные, качайте. Кнопка "Папки Библиотеки" позволяет выбрать корневые папки, где будут создаваться папки-книги, папки-журналы и т.п.. (Таблица соответствий существует, но пока не используется)

 Все настройки программа хранит в текстовых файлах. По желанию вы их можете править вручную.

 Теперь преступим к созданию первых страниц документов.

  Конвертирование первых страниц документа в графические файлы, делает не сама программа, а внешние программы. QViewFile  только управляет этим процессом. Для файлов формата pdf используется ActiveX объект или программа PDFtoBMP. Эту программу и лекарство к ней ищите в сети сами. PDFtoBMP ускоряет процесс конвертирования, но она не так хороша, как родной ActiveX от   Acrobat  Reader 7.0 . PDFtoBMP не может работать с защищенными файлами. ActiveX от   Acrobat  Reader 7.0  может. По этому, когда выбрана PDFtoBMP может появиться диалог о переносе защищенных файлов в отдельную папку.

После завершения процесса конвертирования можно открывать документы для просмотра, выбрав "Открыть папку с документами".

Используемые Клавиши в основном окне.

DOWN (стрелка вниз)- следущий документ
UP (стрелка вверх)- предыдущий документ
RIGHT (стрелка вправо)- следующая страница текущего документа
LEFT (стрелка влево)- предыдущая страница текущего документа
RETURN (Enrer) - вписывать или нет изображение в основное окно программы.

Клавиши на цифровой клавиатуре справа !
(цифра 5 )- открыть документ на просмотр внешней программой
( программа просмотра по умолчанию опред. тек. ассоциацией
для данного типа документа)
"-" Удалить документ.
"+" Вызывает диалог переноса книги в папку или "Новая книга".
F8 Вызывает диалог перехода на нужный документ (перемещение в списке
документов)

Диалог "Новая книга".

Чтобы выбранный документ стал новой книгой в вашей библиотеке:
Выбирайте корневую папку.
Напечатайте название книги.
Нажмите Enter.

Используемые клавиши в окне "Новая книга"

Enter- создать книгу.
Esc- выход.

F9 - вставить текст из буфера с удалением
(перевода строки) в поле ввода названия книги.

Shift-F9 -добавить текст из буфера к значению поля
ввода "название книги".

F8 - перенести фокус ввода в поле ввода названия книги.
Двойной щелчок в поле названия книг- перенос названия предыдущей книги в поле ввода названия книги.

F1 до F7 быстрый выбор корневых папок библиотеки куда будет
помещена новая книга.

На кнопках быстрые клавиши обозначены знаком подчеркивания!
 

 Некоторые книги в архивах помещены в папки со своим названием или сам файл назван "название книги + авторы". Что бы использовать эту информацию, выбирайте опцию "присваивать новые имена"  при распаковке архивов и используйте клавиши. "Имя папки", "Имя файла".

Если, не хотите вводить руками имя книги или название журнала, то нажимайте кл.5  на цифровой клавиатуре из основного окна программы. Запустится программа просмотра. Запоминайте в буфере обмена название книги с авторами. Закрывайте программу просмотра. Делайте двойной щелчок мышкой на изображении документа. Откроется окно  "Создание новой книги". Поле "название книги" будет заполнено содержимым буфера обмена, очищенным от "плохих" символов типа \ , / и т.п.

   Иногда, проще использовать ABBYY Screenshot Reader. Он позволяет захватить часть изображения с экрана, и распознать его, превратив в текст. Распознанный  текст помещается в буфер обмена. А далее щелкайте двойным щелчком на документе. К сожалению ABBYY FineReader 8.0 Professional Edition платная программа, альтернатива только в сети и на пиратских дисках. Что очень странно, т.к. "читающие автоматы" использовались еще советской промышленностью довольно широко с начала 80-ых . Много литературы по этой теме было. Алгоритмические и математические модели распознавания  печатных и руко-печатных символов известны еще с начала 70-ых., а работающего свободного софта нет. Попытки есть, а реального софта нет.

 При конвертации файлов PDF программа PDFtoBMP использует не размер изображения страницы, а разрешение. По этому, обычно, размер изображения страниц документа становится больше чем надо. Включение масштабирования приводит к потере мелких деталей изображения. Щелкайте правой кнопкой мыши и тащите рамку. Отпустив клавишу, программа покажет увеличенный фрагмент, отмеченного изображения. Это даже полезно при распознавании, если было выбрано большое разрешение при конвертации. (Сейчас масштабирование выполнено средствами самой Delphi, но скоро перейду на Vampyre Imaging Library   , там есть  ResizeImage(****, rfBicubic) , качество повысится)

 В общем случае выбор PDFtoBMP  или родного компонента ActiveX от   Acrobat  Reader 7.0  , для конвертации  PDF  в графический файл, не оптимален и ВРЕМЕНЕН. Лучшим выбором будет  бесплатный  Ghostscript  с его API. Например:

int GSDLLAPI gsdll_execute_cont(const char *str, int len);

  А для начала, можно сделать  через командную строку так:

 gswin32c -dSAFER -dBATCH -dNOPAUSE -sDEVICE=png16m -r300 -sOutputFile=test-%d.png test.pdf
   или
 gswin32c -dSAFER -dBATCH -dNOPAUSE -sDEVICE=png16m -r300 -sOutputFile=test-%d.png -dFirstPage=1 -dLastPage=3 test.pdf

 Назначение имен электронным документам, если эти документы книги, можно попытаться автоматизировать следующим способом. Известно, что  сейчас все крупные российские библиотеки обладают электронным каталогом. Это база данных с названием книги и ее автором. Теперь, если из неизвестного документа извлечь первые страницы текста, то с высокой долей вероятности можно утверждать, что там присутствует название книги. Далее, нужно найти в извлеченном тексте фрагмент, который наиболее точно соответствует одной из записей в электронном библиотечном каталоге.  Если кто знает, где можно взять (скачать) такой каталог в виде базы данных, т.е. уже размеченный на записи и поля, шлите мне ссылку на SpaceLib (собака) .narod.ru для экспериментов. Вытащить текст из PDF  можно без  запуска программы просмотра или  распознавания текста с экрана. Например можно воспользоваться сначала pdf2ps, а потом ps2ascii. Но не все документы содержат текст, там могут быть только изображения страниц. Так, что в QViewFile реализация этой возможности  пока под вопросом.

 Советую выбрать "удаляемые файлы документов - переносить в папку" . Это позволит "руками" из этой папки восстановить документ, ошибочно удаленный. Механизм откатов будет добавлен в программу позже.

Предупреждаю! Программа находится в стадии разработки и тестирования! Делайте копии ценных документов, прежде чем они будут обработаны моей программой!

Страница загрузки...

Новости Главная

Введение

Программы

Загрузка Карта сайта
Hosted by uCoz