recoll - Полнотекстовая индексация

Хочу представить вниманию сообщества неплохую программу для полнотекстового поиска по всему что приводится в читаемый вид на вашем компьютере.

Возможности потрясающие, поддержка всех основных форматов документов:
- pdf & postscript
- doc
- все опенофиса
ну и конечно все обычные текстовые файлы

думаю реально ещё больше форматов, но я не тестил остальные.

Скриншот сдесь глянуть можно здесь
http://devhome.by.ru/screen/recoll-001.png

Программа имеет уйму полезных настроек, можно:
- задать директории для индексации
- исключить определённые имена каталогов и типы файлов (по регекспам)
- устанавливать кодировку для файлов, но к сожалению для всех одна.. по дефолту берётся текущая системная
- выбирать область поиска - имена файлов или контент и тп
- много чего другово что лень описывать, поставьте и поглядите сами :)

У меня UTF, проблем с русским как видно из скриншота нету, единственно что среди просмотренных мною документов попался один .ps , в нём русский не корректно распознался, в остальном превосходно всё работает.

Я остался программой очень доволен, она позволяет проводить мгновенный поиск по ~10 гигам документации и распакованных исходников которые имеются в тех каталогах что я указал.

Теперь о минусах:
- при наличии большово колличества индексируемых файлов время поиска может стать весьма значительным, но у меня ~10 гигов проиндексировалось за <3 часа (сколько реально нужно было сказать не могу, уходил)
- относительно большой объём индекса, сейчас
du -sh .recoll/xapiandb/
1.2G .recoll/xapiandb/

Но по моему оно того стоит, советую обязательно попробовать.

Ебилд ожидает включения в дерево, так что пока берём здесь
http://www.zugaina.org/gentoo/portage/app-misc/recoll/recoll-1.8.1.ebuild

Напоминаю для тех кто не помнит - кладём в свой оверлей, генерим Manifest через 'ebuild recoll-1.8.1.ebuild digest' и запускаем установку.

Сайт проекта - http://www.lesbonscomptes.com/recoll/

Ах да, чуть не

Ах да, чуть не забыл, многим наверное будет интересно:
как следствие того, что почта и месседжы от многих программ хранятся обычными текстовиками - они тоже подхватываются.

+ программа рассчитывает релевантность найденных документов, и сортирует всё в порядке её убывания (хотя его тоже можно свой задать)

также программа умеет открывать каталог в котором лежит файл, открывать сам файл в текстовом виде для быстрого просмотра и поиска по нему, конечно просто открывать его, копировать его адрес в буффер и тп.
_________________
- Desktop: core: p4-3.0, video: Nvidia 7900 GT, hard: 4x250 Gb (baracuda 9 series) & 80 Gb WD, mem: 2 G, Audio: Creative X-Fi
- Portable: Asus U5A (915 chipset, centrino 1.73 Donath, 1.5 Gb mem, 160 Gb hard, e.t.c)

Маленький

Маленький скрипт для обновления и построения общих индексов - recollindex-all.sh
Список общих индексов (только имена): /etc/recoll/indexes
Конфиги для каждого индекса: /etc/recoll/configs/
Рабочие конфдиры с базами для каждого индекса: /var/lib/recoll/

#! /bin/bash
# recollindex-all.sh

RECOLL_EXTRA_DBS=$(echo $(grep -v '#' /etc/recoll/indexes | sed s/'^'/'\/var\/lib\/recoll\/'/g | sed s/'$'/'\/xapiandb'/g) |sed s/'\s'/':'/g)
echo "RECOLL_EXTRA_DBS=$RECOLL_EXTRA_DBS" > /etc/env.d/99recoll
env-update

umask 022

for DB in $(cat /etc/recoll/indexes)
do
        if [[ ! -f /etc/recoll/configs/${DB}/recoll.conf ]] ; then
        echo "Can not find config for ${DB}"
        exit 1
        fi

        [[ ! -d /var/lib/recoll/${DB} ]] && mkdir /var/lib/recoll/${DB} && ln -s /etc/recoll/configs/${DB}/* /var/lib/recoll/${DB}/
        echo
        echo "====================== ${DB} ======================"
        echo
        recollindex -c "/var/lib/recoll/${DB}"
done

по крону можно запускать так:

#! /bin/bash
# /etc/cron.daily/recollindex

/usr/local/sbin/recollindex-all.sh &> /var/log/recollindex.log

Пользуйте и улучшайте как вам удобней, :)

у тебя там Internet

у тебя там Internet Explorer в тулбаре.
скажи как поднял. у меня чот постоянно вываливается с ошибкой при запуске.

ie4linux

Проект ie4linux:
http://www.tatanka.com.br/ies4linux/page/Main_Page
и инструкция по установке
http://www.tatanka.com.br/ies4linux/page/Installation

Просто запустишь скрипт, он всё необходимое скачает и настроит вайн окружение. У меня с первого разу заработало, но в теории могут возникнуть проблемы с запуском других программ, тогда погляди сюда
http://gentoo.ru/node/5207

Что с

Что с архивами?

Накаченные из инета книжки по линуксу и юникс-системам в целом в koi8-r, тэги mp3 - cp1251, а всё остальное в utf-8. это можно считать жо... или есть решение?

Оно вроде поддерживает inotify?

================================

Знаю следующие поисковики под Linux:
Beagle
Kat
Google Desktop
Tracker
Recoll

Причём Beagle - глюкалово, так и не смогло полностью проиндексировать всё что у меня есть
Кат:
"The Kat project web page is closed.
Please contact the author."

Google Desktop - не могу доверить свои документы проприетарщине которая постоянно общается с хозяевами через SSL, да и поддержки inotify нема (или есть?)

Остаются последние два, которые и собираюсь испытать

А какие ещё поисковики есть для Linuх?

Интересующимся

Интересующимся темой данная статья в помощь.

Hardware: Portable: Asus U5A (915 chipset, centrino 1.73 Donath, 1.5 Gb mem, 160 Gb hard, e.t.c)

запрос

А можно ли сделать еще в добавок и gtk-gui?
Ну и в ebuild добавить возможность выбора...
Просто у меня нет ни одного приложения на qt, и ставить библиотеку ради одной программы не очень бы хотелось...

В прошлом посте

В прошлом посте я оставил ссылку на статью описывающую различные индексаторы, там есть упоминание что под Gnome что под Qt, посмотри её.

Recall - только qt.

Hardware: Portable: Asus U5A (915 chipset, centrino 1.73 Donath, 1.5 Gb mem, 160 Gb hard, e.t.c)

про tracker я в

про tracker я в курсе. Просто чем-то же отличается recoll от tracker

для Gnome есть

для Gnome есть Tracker.

Понимаю, что тема «пропахла

Понимаю, что тема «пропахла нафталином», но, к великому моему сожалению, эта замечательная программа не в portage и даже не в оверлее (либо я плохо искал).
Установил app-misc/recoll, воспользовавшись ссылкой, «выгугленной» Scolzyashi'им. Возможности полностью соответствуют заявленным, а теперь их и превосходят (ведь прошло уже почти три года).
К моему удивлению эта программа давно уже доступна в репозиториях «менее прогрессивных», чем Gentoo, дистрибутивов.
Какие действия следует предпринять для продвижения этой программы в дерево?

Я Gentoo & Funtoo

.

Путь 1-й,фантастический, типо оффициальный:
открыть баг (сделано 3 года назад) http://bugs.gentoo.org/171271,заслать ебилд типа в санрайс, если все хорошо, типа добавят(или не добавят).
Путь 2-й,полуфантастический, но работает: брать дева гентоо на измор или же заинтересовать его этим ебилдом - если заинтересуется- то хорошо, если нет- см. пункт 1 или 3
Путь 3-й, долгий( лет этак на 5 минимум), но с гарантированным результзтом - приобрести необходимые знания, написать таки квизы и,получив право коммита в дерево как дев гентоо, таки добавить ебилд.
Путь 4-й, обычный, быстрый и деструктивный: пинаем народ из оверлеев, не связанных непосредственно с gentoo.ru, получаем ебилд в оверлее,но таки растаскиваем ебилды по оверлеям, что не хорошо.

P.S программа юзерам нужна здесь и сейчас, а не после дождичка в четверг - это и есть причина растаскивания ебилдов.И ,имхо, ситуация, при которой крупнейшим оверлеем является багзилла - не нормальна.мое видение причин этого - это не тема для этого топика.

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

http://code.google.com/p/qmel

Добавить в список лаймана

Добавить в список лаймана желания нет ?

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

Если бы она не

Если бы она не "конфликтовала" по функциональности со strigi (бездарная вещь, но блин, официальная) то не нужен был бы и бэк-енд в кде-4, такой, как мускул. Там свой бэк-енд, который в официальном дереве портежей есть.
Короче, кому-то из разработчиков nepomuk бы её подсунуть. Всем польза была бы большая...

(Sir) * Windows looks like an open door, but no way to go *

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".