ED2K_FNDocs
Программа
ED2K_FNDocs как и
FindNameDocs предназначена для идентификации файлов.
Основное
применение - автоматическая сортировка <улова> пойманного с помощью
таких программ как skynet, SkyGarber, DataSky, Manna и др. Для
идентификации файлов используется связка (ДЛИНА ФАЙЛА +
Хэш ФАЙЛА). Сортировка происходит путем переноса
идентифицированных файлов в папки с именами взятым из базы
идентификации или путем изменения имени файла на новое. База данных
идентификации это простой текстовый
файл, в котором хранится информация о ранее идентифицированных файлах.
Формат данного текстового файла следующий:
// Хэш-"КОНТРОЛЬНАЯ СУММА" файла документа длиной xx
символов ;
размер файла документа в байтах длиной 12 символов ; имя документа
до конца строки.
Пример, когда хэш это контрольная сумма:
04227227224;000006445232;ИСКУССТВО ПРОГРАММИРОВАНИЯ. КНУТ
04235570299;000003018508;СИСТЕМНЫЙ АДМИНИСТРАТОР
04273634548;000004054888;ADVANCED SIGNAL PROCESSING HANDBOOK
Пример, когда хэш вычисляется по алгоритму клиента ED2K (осла):
c161ab0d6e46e5501caf4f26fcd3c5fc;000001309877;70 ВИДОВ ОВОЩЕЙ НА
ОГОРОДЕ. ШУИН К.А
472819d9a89d04803c9045e18af2a308;000000785011;713 СЕКРЕТОВ
ПРОИЗВОДСТВЕННЫХ ТЕХНОЛОГИЙ
2779615427437b6c974a637062527c9c;000001490670;Шафаревич И.Р. Основные
понятия алгебры
Хэш и длина файла хранятся в символьном виде, длина слева до своего
размера заполняются символом 0.
Внимание! Для вычисления хеша по алгоритму клиента ED2K программа
использует другую программу: ed2k_hash.exe . Она должна
находиться в каталоге вместе с ED2K_FNDocs
(Решение вынужденное и надеюсь временное.
Исходные коды программы ed2k_hash.exe можно найти в Сети
http://sourceforge.net/projects/ed2k-tools/).
Для автоматической сортировки выберите
закладку <ПОИСК>. На ней задайте путь к файлам, которые хотите
идентифицировать. Например: J:\skynet\ok у
каждого он будет своим. Укажите файл(ы) Базы идентификации
(например у меня он: D:\prg\FindDocs\вся_библиотека.hED2K). Выбираем
папку, куда будем переносить идентифицированные файлы, далее модель
сортировки. Я рекомендую значение по
умолчанию, т.е. переносить файлы в отдельные папки
- имена которых взяты из Базы идентификации. Если выбран
CheckBox <Диалог при повторе Хэш+Size> ,то когда в Базе
существуют несколько названий документа для одного и того же файла, то
во время работы программы будет появляться диалог предлагающий выбрать с
вашей точки зрения лучшее название.
Закладка
<Экспорт в файл> предназначена для тех, кто хочет поделиться с другими
своими результатами РУЧНОЙ сортировки файлов. Допустим, с помощью этой
программы вы смогли в автоматическом режиме отсортировать часть файлов.
Но у вас остались еще файлы, информации о которых нет в Базе
идентификации. И вы как обычно запускаете программу просмотра данных
файлов. Те которые вам нужны, вы сохраните в папку с осмысленным
названием, например: файлик размером 11 249 536 байт и именем
7000_d05c0*****_209.123.181.125_196856.rar вы перенесли в папку
<V:\Софт_со_спутника\SkyNet_MonsterPack. 13 софт для рыбалки>.
Здесь, как вы понимаете осмысленное название, которое сохранится в базе
будет <SkyNet_MonsterPack.13 софт для рыбалки>, а <V:\Софт_со_спутника\>
это КОРНЕВАЯ папка вашей библиотеки, таких папок может быть много.
Например, у меня они такие:
D:\библиотека\ журналы
D:\библиотека\ книги
D:\библиотека\ книги интересные
D:\библиотека\ Софт_со_спутника
Для
Экспорта вы задаете эти корневые папки и имя файла куда выгружаете
данные. Например: D:\prg\FindDocs\вся_библиотека_и_Софт.hED2K.
Все, уже можно нажимать кнопку <Начать выгрузку>. Информация о ВСЕХ
файлах будет записана в файл вся_библиотека_и_Софт.hED2K. Если вы хотите
выгружать только файлы, отсортированные вами, то в окошке <Файлы с инф.
о ранее выгруженных документах (файлах) библиотеки>
укажите имя(имена) файла(файлов) Базы идентификации, где хранится
информации о файлах которые не будут включаться в выгрузку. Полученный
текстовый файл надо архивировать и слать мне на мыло (spacelib собака
narod.ru). По мере накопления таких файлов я их буду объединять и
выкладывать в виде добавок к основной базе, а потом и включать в нее.
Хочу обратить внимание на CheckBox <Диалог при повторе Хэш+Size>.
Появление этого диалога мера вынужденная , т.к. в общем случае компьютер
не человек и оценить какое имя для файла лучше из
двух и более возможных не может. В идеале в выверенной Базе
идентификации таких дублей быть не
должно, но в жизни все иначе.
Программа ED2K_FNDocs, как и FindNameDocs поставляется с исходными
кодами. Это значит, что вы можете их использовать без ограничений, в том
случае, если не меняете формат Базы идентификации и обязуетесь ее
распространять (Базу) бесплатно и без дополнительных условий. Я не
претендую на единоличное ведение Базы идентификации. Если найдется
кто-то, кто захочет это делать безвозмездно, с радостью с этим
соглашусь.
Программы ED2K_FNDocs и FindNameDocs отличаются только алгоритмом
вычисления хэша и соответственно Базой
Идентификации. Появление ED2K_FNDocs продиктовано
желанием использовать информацию об электронных книгах
накопленных в "Коллекции технической
литературы" МГУ. На 2006г. там было около 16000 книг!
А размер библиотеки свыше 100 ГигаБайт.
На закладке "Загрузка Htmls" вы найдете способ извлечения информации из
файлов *.Htm (Извлекаются: Название книги,
размер файла и Хэш ED2K , сохранены в файле
МГУ_Кол_тех_лит.hED2K).
Страница загрузки...