SpaceLib

Новости Главная Введение Программы Загрузка Карта сайта


RssSky
.

 RssSky

 

     RssSky – агрегатор новостных лент. Предназначен для: сбора, загрузки, хранения, поиска, чтения и прослушивания новостных лент, созданных в  формате RSS 2.0. Внешний вид программы выполнен в стиле «приборная доска» посредством многоуровневых окон-закладок. Основное отличие от других агрегаторов – способность читать вслух отобранные новостные сообщения на языке оригинала и загружать их не только  из сети, но и  из перехваченных XML файлов. RssSky абсолютно бесплатен и на моем сайте вы можете скачать исходные  коды программы.

 

В этом маленьком описании я кратко расскажу об основных функциях программы:

    Введение
1. Сбор новостных лент.
2. Поиск и чтение новостных лент.
3. Прослушивания новостных лент.
4. Загрузка новостных лент из сети.
5. Расширенный поиск.
6. Выгрузка сообщений из хранилища.
    Заключение.

Введение.

      Rss это стандарт XML документа, предназначенного для компактного представления обновлений с любых сайтов Сети. Rss  родился в ответ на потребность пользователей, желающих быстро и в сжатой  форме узнать: "Что нового на сайте?, Какие последние новости?". По сути Rss  это формат "живого дайджеста" сайтов. Главной особенность Rss  XML файлов является то что, вся информация в них размечена по смыслу с помощью специальных тэгов. Это позволяет программным образом легко ее находить и обрабатывать, для удобного и компактного представления пользователю. Теперь не надо посещать с помощью браузера, каждый сайт в отдельности, выискивая на нем что-то новое. Программа агрегатор сама опросит все интересующие вас сайты, найдет новые материалы на них и представит все в виде компактной новостной ленты. Такие ленты очень похожи на телетайпные ленты телеграфных агенств. Понмните ТАСС? (Телеграфное агенство СоветскогоСоюза). Как говорится: "Вот и еще один виток в движении по спирали Истории". Rss  это один маленький шаг на пути к "Умной Сети".
  
RssSky  специально "заточен" под любителей "космической рыбалки". Он позволяет извлечь максимум выгоды из открытого спутникового потока.

Сбор новостных лент.

 После того как вы включили  опцию выделение из цифрового спутникового потока файлов формата  XML, на вашем жестком диске программа skynet (или Skygraber, BetaSky, DataSky, Manna, MaCsKy и т.п.) начала сохранять файлы этого формата. Нас будут интересовать только файлы XML содержащие новостные ленты в формате RSS 2.0.

Запускаем программу RssSky , переходим на вкладку «Сканирование  RSS.». Запустив первый раз программу надо сделать минимум настроек:

1.              указать имя файла хранилища всех найденных и загруженных новостных лент в поле «Хранилище всех RSS.». Автоматически этому файлу будет присвоено расширение «.rss».(Используйте кнопку  со знаком -?-).

2.              указать «Папки где ищем RSS».Можете просто написать пути руками, как в текстом редакторе. Один путь – одна строка! Или воспользоваться кнопками «Добавить папку», «Очистить все». При поиске XML файлов возможен просмотр вложенных папок – опция «Сканировать подкаталоги».

3.              рекомендую сразу установить следующие опции: «Предварительно удалять одинаковые файлы.» и «Загружать в хранилище только уникальные сообщения.». Последняя опция особенно важна.

Теперь можно  начать «Сбор новостных лент». Нажимайте на кнопку «Запуск однократно». RssSky сначала удалит повторяющиеся файлы XML, отберет из них те которые соответствуют формату  новостных лент - RSS 2.0 и загрузит их в хранилище.

 

Поиск и чтение новостных лент.

 

Выбираем закладку «Чтение RSS». Переходим на вкладку «Поиск каналов и сообщений». Нажимаем на кнопку «Загрузка всех каналов». Все сообщения из хранилища будут загружены в память программы, найденные новостные каналы будут отображены в списке «Все каналы». В группе «Поиск и Фильтрация» выберите закладку «Простой поиск» и нажмите кнопку «Найти и показать». Все сообщения из хранилища будут отсортированы по ключу «Имя канала + дата публикации сообщения» и показаны в виде списка на закладке «Чтение найденного». Программа автоматически переключается на закладку «Чтение найденного». Если этого не происходит, то это значит вы отключены от сети, а значит необходимо самому перейти на закладку «Чтение найденного», и выбрать вкладку «Html View». Или можно поступить иначе. Запустите «Internet Explorer» и в меню «файл» выберите «работать автономно».

Группа «Отобранные каналы» разделена на два списка. В верхнем списке отображаются обобщенные названия  «любимых» каналов. Т.е. каналов, которые объединены в группы по какому то признаку. Например: компьютеры, наука,  новости, спорт, погода. Если присмотреться, то станет ясно, что в верхнем окне отображаются названия файлов с расширением «.myrss» находящиеся в паке, заданной в поле «Группы каналов». Щелкнув мышкой на таком файле, вы перенесете его содержимое  в нижнее список, избавив себя от повторного отбора каналов из списка «Все каналы. (All Channels)».

Читать все каналы вместе за все время не удобно. Значит надо выбрать интересующий вас канал, щелкнув на нем двойным щелчком мыши. Выбранный канал перенесется в группу «Отобранные каналы». Далее выберите опцию «Использовать фильтр», в списке диапазонов дат выберите, например, элемент «сегодня и вчера» и нажмите кнопку «Найти и показать». Будут отобраны все новостные сообщения выбранного канала с датой публикации «сегодня» или «вчера». Если вы ищете что-то конкретное, задавайте ключевые слова  в полях фильтра. Регистр букв игнорируется. Перед ключевыми словами возможны следующие управляющие символы:

«+» - следующий фрагмент текста за знаком «плюс» должен быть обязательно в выбранном поле конкретного сообщения. (Операция И).

«-» - следующий фрагмент текста за знаком «минус» на НЕ должен быть в выбранном поле конкретного сообщения. (Операция НЕ).

«~» или «/»- если в поле сообщения найден будет фрагмент текста, следующий за знаками «тильда» или «косая черта», то такое сообщение будет обязательно включено в результат поиска. (Операция ИЛИ).

«_» - знак обозначает пробел.

«?» - знак маскировки символа. (Например, задав для поиска строку «б?й» будут найдены все сообщения в тексте поля которого, присутствует последовательность букв «б», «любой символ», «й». Под такую маску подпадают слова: буй, бай, бой, собой, байт и т.д.).

Если вы не выберите ни одного канала, то включенный фильтр будет применяться ко всем сообщениям из хранилища.

Опция «Без прочитанных сообщ.» позволяет исключать из найденных - ранее уже прочитанные сообщения.

Кнопка «Загрузка  в буфер обмена» помещает в буфер обмена все найденные сообщения в формате «заголовок сообщения»+«текст сообщения». Для чего это нужно? Например: вы загрузили последние сообщения ваших любимых «блогеров», но вам сейчас слушать некогда, надо куда то идти или  делать какую то монотонную работу, не требующую больших интеллектуальных усилий. Выход есть! Помещенный в буфер обмена текст сообщений, вставьте  в окно программы «ЭХО» и нажмите кнопку «To File». Будет создан звуковой файл в формате mp3 или wav,  который вы, загрузив в свой мобильный телефон или флеш плеер, можете спокойно прослушать во время занятий спортом, прогулки на велосипеде, приготовлением  пищи и т.д. и т. п.

Для чтения текста сообщения можно использовать три различных просмотровых окна представленных на закладках: «TXT View», «Html View», «Анимация речи». Если в тексте сообщения присутствуют Html  тэги, элементы разметки то лучше использовать «Html View» это интегрированный в программу  «Internet Explorer» в виде ActivX элемента. «TXT View» отображает сообщение «как есть» без каких либо преобразований. Просмотр в окне «Анимация речи» возможен в 2-ух режимах. В первом режиме, над текстом сообщения не  производится ни каких преобразований, однако вид отображения похож на  «Html View». Во втором режиме, при включенной опции «Преобразов. Html -> txt», текст из встроенного «Internet Explorer» преобразуется в «плоский текст» и отображается в окне «Анимация речи». Это преобразование эквивалентно сохранению Html страницы в файл формата TXT - Web браузером. Преимущество такого подхода в том, что шрифт и его размер можно выбирать в широчайших пределах.

 

Прослушивания новостных лент.

 Прослушивание текста с анимацией в виде бегущей строки.
Прослушивание текста с анимацией в виде бегущей строки.

Прослушивания новостных лент это попытка соединить приятное с полезным. :).  Для того что бы, синтез речи стал возможен, у вас должен быть установлен Microsoft  SAPI 5.1 и «движок» синтезатор русской речи. Если у вас Windows XP, у вас уже по умолчанию установлен SAPI 5.1 и «движок» синтезатор английской речи с именем " Microsoft Sam". Теперь о русских «движках» синтезаторах речи. В настоящий момент  их всего два. Это "RealSpeak - Katerina"  и ELAN Speech Cube V4.2 с голосом "Николай". Все остальные «движки» имеют отвратительное качество синтезированной речи, их пока в расчет брать не будем. Движок от ELAN у меня очень не стабилен и я его практически не использую. А, вот, «Катерина» эта наша спасительница. :). Ищите в сети файл  с примерным названием: «RealSpeak - Katerina.exe» и размером 47051833 Байт. Кроме того, вам потребуется «лекарство» для этого движка т.к. он платный. После установки «Катерины», возможно, вы сочтете, что она говорит слишком медленно. Тогда  сохраните следующие строки 

 

REGEDIT4

 

[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech\Voices\Tokens\ScanSoftKaterina_Full_22kHz]

"pp type"="email"

 

 

в файле  с именем «Katerina_speed.reg» и запустите его. Сам он выполняться не  будет, однако ОС загрузит regedit и внесет необходимые изменения в реестр. Если захотите отменить сделанные изменения в файле «UNDO_Katerina_speed.reg» сохраните следующие строки текста:

 

REGEDIT4

 

[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech\Voices\Tokens\ScanSoftKaterina_Full_22kHz]

"pp type"=-

 

и запустите его на исполнения. Любознательные могут исследовать ветку системного реестра: «HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech\Voices». В ней хранится информация об установленных в системе «движках» - синтезаторах речи. Дополнительные английские бесплатные голоса можно загрузить с сайта Microsoft  вместе с «Microsoft Speech SDK version 5.1». Это файл «speechsdk51.exe»  размером 71275856 байт.

Теперь перейдем на закладку Речь (Speech). В группе «Выбери голос и протестируй его:» выберите из списка установленных голосов нужный вам голос. Нажмите кнопку с пиктограммой говорящего человека,  текст из тестовой строки будет произнесен голосом. Попробуйте английский и русский голоса. Выберите приемлемую скорость и громкость синтеза речи. Когда выбранные установки вас устроят, нажимайте кнопку «Применить к рус. голосу».  Выбранные настройки запомнятся для русского голоса. Тоже самое проделайте для английского голоса. В группе «Языки (Languages)» выбирайте двуязычный синтез. В группе «Как анимировать речь» выберите пока «Без анимации». Переходите на закладку «Чтение найденного» и запускайте синтез, нажав на пиктограмму глобуса с наушниками. Если все нормально и синтез двуязычной речи работает, пробуйте синтез с анимацией.

Прослушивание текста с анимацией в специальном текстовом окне.
Прослушивание текста с анимацией в специальном текстовом окне.

Прослушивание текста с анимацией в виде бегущей строки в отдельном окне.
Прослушивание текста с анимацией в виде бегущей строки в отдельном окне.

 Анимация нужна, когда вы читать не можете, однако слух ваш свободен и мозг требует интеллектуальной пищи. Во время синтеза речи вы чувствуете, что что-то произнесено не правильно или вы что-то не уловили  и бросаете взгляд на монитор, что бы понять, в чем дело? Благодаря анимации, т. е. подсветке  того текста, который в данный момент произносится, вы быстро и без  усилий прочитываете «проблемный» фрагмент текста. Такие проблемные фрагменты текста возникают из-за того, что «компьютер» не человек и понять самостоятельно некоторые вещи не может. Например, сокращение: «10 Тб.» голос «Катерина» произносит как «10 Тбилиси», а «2000г», как «2000 граммов». Анализ контекста может только сократить количество ошибок произнесения и произношения слов, однако полностью от них не избавит. Многим  может показаться, что анимация речи вещь не серьезная, однако при правильном подходе она может продлить вам жизнь. Задумайтесь,  от чего чаще всего умирают люди в развитых странах? Правильно, болезни сердечно-сосудистой системы, отягощенные ожирением, основной бич современного мира. Важнейшей  причиной возникновения таких болезней считается малая физическая подвижность человека. Современный сложный и динамичный мир требует от «человека разумного» перерабатывать горы информации, чтобы остаться «на гребне волны». Главным каналом поступления такой «важной» информации становится компьютер, подключенный к Сети. Развитие цивилизации просто приковывает нас к экранам мониторов. Давайте дадим себе шанс прожить больше! Когда информация может быть воспринята на слух, включим синтез речи с анимацией, встанем со стула и сделаем несколько физических  упражнений! J.

 

Загрузка новостных лент из сети.

 Загрузка новостных лент из сети.

В этом режиме программа сама загружает новостные ленты из Сети. Внимание: для загрузки файлов из сети программа берет настройки у «Internet Explorer» для текущего активного подключения к Интернету. Т.е. не забывайте про режим «Автономная работа» и настройки прокси. Активируйте закладку «Загрузка RSS (Downloads RSS)». Для загрузки файлов формата RSS вам необходимо указать на них ссылки.  Основное окно программы поддерживает технологию перетаскивания текста между приложениями. Найдя на Web странице ссылку, выделите ее, захватите и тащите на поверхность программы RssSky. Над полем «Адрес (URL)» отпустите. Тоже самое проделайте  для поля «Комментарий (Commentary)». Это поле советую всегда заполнять, хотя оно и необязательное. Кнопка «Поплавок» вызывает маленькое окно, которое всегда будет находиться поверх остальных окон. Основное окно на время станет не видимым. Это окно «поплавок» из-за своих малых размеров более удобно для сбора ссылок на новостные ленты с сайтов на подобие «www.kanban.ru».

 окно «поплавок»

Поле «Дата последней загрузки» имеет атрибут только для чтения и необходимо для того, что бы определить, когда наступит время очередной загрузки. Если включен режим «загружать по таймеру», программа раз в минуту сканирует таблицу с адресами новостных лент и проверяет, не наступило ли время загружать опять файл с новостями с данного URL. Поле «Частота загрузки» заполняется обычно «на глаз». Хотя некоторые сайты и декларируют явно частоту обновления, однако многие дают явно завышенные оценки частоты обновления своих новостных лент. Если вдруг файлы не загружаются это значит, что «Internet Explorer» находится в автономном режиме работы. Пока загрузка сделана  в потоке основного окна, это значит что в некоторые моменты интерфейс программы будет на отвечать т.е. «замерзать». Думаю, ничего страшно в этом нет. Так как файлы Rss по размеру весьма малы, а если вы загружаете их через сжиматель-ускоритель типа Глобакс, Слонакс, Спринт или TelliNet, то практически «незаметны».

 

Расширенный поиск.

Расширенный поиск.

 На закладке «Поиск каналов и сообщений» в группе «Поиск и Фильтрация» есть вкладка «Расширенный» поиск.

 Расширенный поиск позволяет реализовать практически не ограниченную модель поиска сообщений. Работа в этом режиме похожа на работу с калькулятором, в котором есть функция запомнить результат в памяти. Назовем такую память «Аккумулятором». Когда нужно вычислить сложное выражение со скобками, человек  разбивает  процесс вычисления на последовательность элементарных операций в нужной последовательности, а промежуточный результат запоминает в памяти калькулятора. Так же и в этом режиме. Вы выполняете простой поиск, запоминаете результат, нажав клавишу «Объединение», найденное множество сообщений объединяется  с  «Аккумулятором». Визуально в программе аккумулятор выполнен виде панельки справа сверху, на которой изображается цифрами количество запомненных сообщений. Далее выполняете еще один простой поиск, получаете еще одно множество сообщений. Теперь нажав одну из кнопок: «Объединение», «Пересечение», «Не пересечение», «Исключение»,   вы выполните одну из выбранных операций над двумя множествами найденных сообщений. Результат такой операции над множествами сообщений сохраняется в «Аккумуляторе». Рассмотрим пример. Задача: «Найти новостные сообщения о бомбардировке российскими самолетами территории Грузии». Решение. В новостных сообщениях должны совместно  упоминаться две «сущности». Первая «сущность» это Грузия, упоминание о которой может быть выражено как названием местности – поисковый фрагменты «грузи», «гори» «осети», так и ее официальных представителей – поисковый фрагменты «саакашв», «мерабишвил». Вторая сущность это летательные аппараты или средства поражения, т.е. поисковые фрагменты – «самолет», «истребит», «вертолет», «бомбардиров», «ракет». Делаем поиск сначала одной «сущности», запоминаем результат в «Аккумулятор», кнопкой «Объединить». Потом второй. И наконец, выполняем операцию «пересечение» между двумя множествами запросов, нажав кнопку «Пересечение». При поиске в первом  запросе, в поле «Текст сообщения» пишем: «/груз /гори /осети», во втором: «/самолет /истребит /вертолет /бомбардиров /ракет». Результат можно посмотреть здесь.

 

Выгрузка сообщений из хранилища.

 

Хранилище это обычный текстовый файл, «почти» XML, в котором в размеченном тегами тексте хранятся новостные сообщения. Файл хранилища имеет расширение «.Rss». Приведем фрагмент их хранилища.

<item>

<titleRss><![CDATA[MEMBRANA]]></titleRss>

<title><![CDATA[Фуллерены помогут справиться с аллергией]]></title>

<link><![CDATA[http://www.membrana.ru/lenta/?7440]]></link>

<description><![CDATA[Группа специалистов из двух исследовательских организаций штата Вирджиния VCUHS (<a href="http://www.vcuhealth.org/">Virginia Commonwealth University Health System</a>) и <a href="http://www.lunainnovations.com/">Luna Innovations</a> предложили использовать для лечения аллергии химические свойства особых углеродных молекул - фуллеренов.]]></description>

<pubDate><![CDATA[Tue, 10 Jul 2007 14:41:00 GMT]]></pubDate>

</item>

 

Тэг <item> содержит одно новостное сообщение. Файл «почти» XML, т.к. нет корневого тэга. При создании файла хранилища вместе с ним создаются файлы:

с информацией  о загруженных  сообщениях, имеет расширение «.bcrc32»;

с информацией о прочитанных сообщениях, имеет расширение «.rmcrc32».

Все три файла имеют одно имя, но разное расширение. Если при загрузке хранилища, файл с расширением  «.bcrc32» отсутствует, он воссоздается заново без всякого ущерба, т.к. хранит контрольную сумму и длину  каждого сообщения. Файлы с расширением «.rmcrc32» и  «.bcrc32» простые тестовые файлы, каждый элемент которых начинается с новой строки. Форматы обоих файлов идентичны, однако назначение разное.

При каждом нажатии на кнопку «Загрузка всех каналов», парсер каждый раз заново обрабатывает его. Через некоторое время, когда размер этого файла станет  несколько десятков мегабайт, время загрузки станет существенно. Возможно, вам захочется избавиться от ранее прочитанных сообщений, или  от всех сообщений за определенный период. Что бы произвести выгрузку сообщений перейдите на вкладку расширенный поиск. Найдите те сообщения, которые хотите выгрузить, посмотрите на них, осознайте, что  вы наши именно то, что надо. Далее, жмите на кнопку «Выгрузка сообщений». Появится окно параметров выгрузки.

 Выгрузка сообщений из хранилища

Если вы решите выгружать сообщения в формате  «txt» или «html», то в папке для выгружаемых файлов будут создаваться подкаталоги  с именами названий каналов. В эти подкаталоги будут выгружаться сообщения именно этого канала. Само имя файла сообщения будет взято из заголовка сообщения. Символы разделители будут заменены на знак подчеркивания. Формат  «txt» подразумевает, что одно сообщение будет оформлено в виде одного  текстового файла с содержимым аналогичным закладке «TXT View». Формат «html» это тот же самый «txt», только адаптированный для чтения в окне Браузера. Выгрузка в формат  «.Rss» обычно используется для разделения хранилища на несколько частей. При выгрузке в формат «.Rss», файлы с расширениями «.rmcrc32» и  «.bcrc32» не создаются. Файл с расширением «.bcrc32» при необходимости будет воссоздан при первой загрузке, а файл ранее прочитанных сообщений («.rmcrc32»), можно взять от текущего хранилища, если это важно. Правда может появиться некоторая его избыточность по отношению новому хранилищу, но в некоторых случаях это только на пользу.

Для компактного хранения выгруженных сообщений их необходимо  перенести  вместе с подкаталогами в «непрерывный» архив. Перед переносом сообщений  в архив, советую их проиндексировать с помощью персональной поисковой системы.

Приведем пример. Задача: «Необходимо найти и выгрузить все  прочитанные нами сообщения из хранилища». Решение. После загрузки всех каналов в память программы кнопкой «Загрузка всех каналов»  на закладке «Поиск каналов и сообщений», установим опцию «Использовать фильтр», а опцию «Без прочитанных сообщений» оставим не выбранной. Нажмем кнопки «Поиск» и «Объединить». Далее установим опцию «Без прочитанных сообщений» и снова нажмем кнопку  «Поиск». Теперь в «Аккумуляторе» хранятся все сообщения из хранилища, а «во временном регистре» результат последнего поиска. Т.е. ранее НЕ прочитанные сообщения. Теперь, если нажать кнопку «Исключить», то  из «Аккумулятора» будут исключены те сообщения, которые находятся во «временном регистре». В нашем случае из всего множества сообщений хранилища будут исключены еще НЕ прочитанные сообщения и останутся только прочитанные. Теперь можно приступать к выгрузке. Жмем кнопку «Выгрузка сообщений». Устанавливаем необходимые вам опции и нажимаем кнопку «Выполнить». Все…

Заключение.

Как я уже писал, RssSky абсолютно бесплатен. А значит, поставляется «как есть» и используете вы его, на свой страх и риск. Т.к. программирование это мое хобби, не ждите от программы верха совершенства,  как внутреннего, так и внешнего. И вообще, мне больше нравится в программировании функциональная парадигма, чем объектная. «Генетика» однако.  Да чуть не забыл! Сори за мой английский, у меня его нет! Зато я говорю по-русски. : )  Всегда считал русский, языком межнационального общения. Причем тут английский? : )

Скачать...

К началу.

Паламарь Игорь 2007г.

 

Новости Главная

Введение

Программы

Загрузка Карта сайта
Hosted by uCoz