SpaceLib

Новости Главная Введение Программы Загрузка Карта сайта


ED2K_FNDocs

  Программа ED2K_FNDocs как и FindNameDocs предназначена для идентификации файлов.

     Основное применение - автоматическая сортировка <улова> пойманного с помощью таких программ как skynet, SkyGarber, DataSky, Manna и др. Для идентификации файлов используется связка (ДЛИНА ФАЙЛА + Хэш ФАЙЛА). Сортировка происходит путем переноса идентифицированных файлов в папки с именами взятым из базы идентификации или путем изменения имени файла на новое. База данных  идентификации это простой текстовый файл, в котором хранится информация о ранее идентифицированных файлах. Формат данного текстового файла следующий:

// Хэш-"КОНТРОЛЬНАЯ СУММА" файла документа длиной xx символов ;
размер файла документа в байтах длиной 12 символов ; имя документа
до конца строки.

Пример, когда хэш это контрольная сумма:

04227227224;000006445232;ИСКУССТВО ПРОГРАММИРОВАНИЯ. КНУТ
04235570299;000003018508;СИСТЕМНЫЙ АДМИНИСТРАТОР
04273634548;000004054888;ADVANCED SIGNAL PROCESSING HANDBOOK

Пример, когда хэш вычисляется по алгоритму клиента ED2K (осла):

c161ab0d6e46e5501caf4f26fcd3c5fc;000001309877;70 ВИДОВ ОВОЩЕЙ НА ОГОРОДЕ. ШУИН К.А
472819d9a89d04803c9045e18af2a308;000000785011;713 СЕКРЕТОВ ПРОИЗВОДСТВЕННЫХ ТЕХНОЛОГИЙ
2779615427437b6c974a637062527c9c;000001490670;Шафаревич И.Р. Основные понятия алгебры


Хэш и длина файла хранятся в символьном виде, длина слева до своего размера заполняются символом 0.

Внимание! Для вычисления хеша по алгоритму клиента ED2K программа использует другую программу: ed2k_hash.exe . Она должна находиться в каталоге вместе с ED2K_FNDocs (Решение вынужденное и надеюсь временное. Исходные коды программы ed2k_hash.exe можно найти в Сети http://sourceforge.net/projects/ed2k-tools/).

  Для автоматической сортировки выберите закладку <ПОИСК>. На ней задайте путь к файлам, которые хотите идентифицировать. Например: J:\skynet\ok у каждого он будет своим. Укажите файл(ы) Базы  идентификации (например у меня он: D:\prg\FindDocs\вся_библиотека.hED2K). Выбираем папку, куда будем переносить идентифицированные файлы, далее модель сортировки. Я рекомендую значение по умолчанию, т.е. переносить файлы в отдельные  папки - имена которых взяты из Базы идентификации. Если выбран CheckBox <Диалог при повторе Хэш+Size> ,то когда в Базе существуют несколько названий документа для одного и того же файла, то во время работы программы будет появляться диалог предлагающий выбрать с вашей точки зрения лучшее название.

    Закладка <Экспорт в файл> предназначена для тех, кто хочет поделиться с другими своими результатами РУЧНОЙ сортировки файлов. Допустим, с помощью этой программы вы смогли в автоматическом режиме отсортировать часть файлов. Но у вас остались еще файлы, информации о которых нет в Базе идентификации. И вы как обычно запускаете программу просмотра данных файлов. Те которые вам нужны, вы сохраните в папку с осмысленным названием, например: файлик размером 11 249 536 байт и именем
7000_d05c0*****_209.123.181.125_196856.rar вы перенесли в папку <V:\Софт_со_спутника\SkyNet_MonsterPack. 13 софт для рыбалки>. Здесь, как вы понимаете осмысленное название, которое сохранится в базе будет <SkyNet_MonsterPack.13 софт для рыбалки>, а <V:\Софт_со_спутника\> это КОРНЕВАЯ папка вашей библиотеки, таких папок может быть много. Например, у меня они такие:

D:\библиотека\ журналы
D:\библиотека\ книги
D:\библиотека\ книги интересные
D:\библиотека\ Софт_со_спутника

    Для Экспорта вы задаете эти корневые папки и имя файла куда выгружаете данные. Например: D:\prg\FindDocs\вся_библиотека_и_Софт.hED2K. Все, уже можно нажимать кнопку <Начать выгрузку>. Информация о ВСЕХ файлах будет записана в файл вся_библиотека_и_Софт.hED2K. Если вы хотите выгружать только файлы, отсортированные вами, то в окошке <Файлы с инф. о ранее выгруженных документах (файлах) библиотеки> укажите имя(имена) файла(файлов) Базы идентификации, где хранится информации о файлах которые не будут включаться в выгрузку. Полученный текстовый файл надо архивировать и слать мне на мыло (spacelib собака narod.ru). По мере накопления таких файлов я их буду объединять и выкладывать в виде добавок к основной базе, а потом и включать в нее. Хочу обратить внимание на CheckBox <Диалог при повторе Хэш+Size>. Появление этого диалога мера вынужденная , т.к. в общем случае компьютер не человек и оценить какое имя для файла лучше из двух и более возможных не может. В идеале в выверенной Базе  идентификации таких дублей быть не должно, но в жизни все иначе.
Программа ED2K_FNDocs, как и FindNameDocs поставляется с исходными кодами. Это значит, что вы можете их использовать без ограничений, в том случае, если не меняете формат Базы идентификации и обязуетесь ее распространять (Базу) бесплатно и без дополнительных условий. Я не претендую на единоличное ведение Базы идентификации. Если найдется кто-то, кто захочет это делать безвозмездно, с радостью с этим соглашусь.


Программы ED2K_FNDocs и FindNameDocs отличаются только алгоритмом вычисления хэша и соответственно Базой Идентификации. Появление ED2K_FNDocs продиктовано желанием использовать информацию об электронных книгах накопленных в  "Коллекции технической литературы" МГУ. На 2006г. там было около 16000 книг! А размер библиотеки свыше 100 ГигаБайт. На закладке "Загрузка Htmls" вы найдете способ извлечения информации из файлов *.Htm (Извлекаются: Название книги, размер файла и Хэш ED2K , сохранены в файле МГУ_Кол_тех_лит.hED2K).

Страница загрузки...
 

Новости Главная

Введение

Программы

Загрузка Карта сайта
Hosted by uCoz