recoll - Полнотекстовая индексация
Хочу представить вниманию сообщества неплохую программу для полнотекстового поиска по всему что приводится в читаемый вид на вашем компьютере.
Возможности потрясающие, поддержка всех основных форматов документов:
- pdf & postscript
- doc
- все опенофиса
ну и конечно все обычные текстовые файлы
думаю реально ещё больше форматов, но я не тестил остальные.
Скриншот сдесь глянуть можно здесь
http://devhome.by.ru/screen/recoll-001.png
Программа имеет уйму полезных настроек, можно:
- задать директории для индексации
- исключить определённые имена каталогов и типы файлов (по регекспам)
- устанавливать кодировку для файлов, но к сожалению для всех одна.. по дефолту берётся текущая системная
- выбирать область поиска - имена файлов или контент и тп
- много чего другово что лень описывать, поставьте и поглядите сами :)
У меня UTF, проблем с русским как видно из скриншота нету, единственно что среди просмотренных мною документов попался один .ps , в нём русский не корректно распознался, в остальном превосходно всё работает.
Я остался программой очень доволен, она позволяет проводить мгновенный поиск по ~10 гигам документации и распакованных исходников которые имеются в тех каталогах что я указал.
Теперь о минусах:
- при наличии большово колличества индексируемых файлов время поиска может стать весьма значительным, но у меня ~10 гигов проиндексировалось за <3 часа (сколько реально нужно было сказать не могу, уходил)
- относительно большой объём индекса, сейчас
du -sh .recoll/xapiandb/
1.2G .recoll/xapiandb/
Но по моему оно того стоит, советую обязательно попробовать.
Ебилд ожидает включения в дерево, так что пока берём здесь
http://www.zugaina.org/gentoo/portage/app-misc/recoll/recoll-1.8.1.ebuild
Напоминаю для тех кто не помнит - кладём в свой оверлей, генерим Manifest через 'ebuild recoll-1.8.1.ebuild digest' и запускаем установку.
Сайт проекта - http://www.lesbonscomptes.com/recoll/
- Для комментирования войдите или зарегистрируйтесь
Ах да, чуть не
Ах да, чуть не забыл, многим наверное будет интересно:
как следствие того, что почта и месседжы от многих программ хранятся обычными текстовиками - они тоже подхватываются.
+ программа рассчитывает релевантность найденных документов, и сортирует всё в порядке её убывания (хотя его тоже можно свой задать)
также программа умеет открывать каталог в котором лежит файл, открывать сам файл в текстовом виде для быстрого просмотра и поиска по нему, конечно просто открывать его, копировать его адрес в буффер и тп.
_________________
- Desktop: core: p4-3.0, video: Nvidia 7900 GT, hard: 4x250 Gb (baracuda 9 series) & 80 Gb WD, mem: 2 G, Audio: Creative X-Fi
- Portable: Asus U5A (915 chipset, centrino 1.73 Donath, 1.5 Gb mem, 160 Gb hard, e.t.c)
Маленький
Маленький скрипт для обновления и построения общих индексов - recollindex-all.sh
Список общих индексов (только имена): /etc/recoll/indexes
Конфиги для каждого индекса: /etc/recoll/configs/
Рабочие конфдиры с базами для каждого индекса: /var/lib/recoll/
по крону можно запускать так:
Пользуйте и улучшайте как вам удобней, :)
у тебя там Internet
у тебя там Internet Explorer в тулбаре.
скажи как поднял. у меня чот постоянно вываливается с ошибкой при запуске.
ie4linux
Проект ie4linux:
http://www.tatanka.com.br/ies4linux/page/Main_Page
и инструкция по установке
http://www.tatanka.com.br/ies4linux/page/Installation
Просто запустишь скрипт, он всё необходимое скачает и настроит вайн окружение. У меня с первого разу заработало, но в теории могут возникнуть проблемы с запуском других программ, тогда погляди сюда
http://gentoo.ru/node/5207
Что с
Что с архивами?
Накаченные из инета книжки по линуксу и юникс-системам в целом в koi8-r, тэги mp3 - cp1251, а всё остальное в utf-8. это можно считать жо... или есть решение?
Оно вроде поддерживает inotify?
================================
Знаю следующие поисковики под Linux:
Beagle
Kat
Google Desktop
Tracker
Recoll
Причём Beagle - глюкалово, так и не смогло полностью проиндексировать всё что у меня есть
Кат:
"The Kat project web page is closed.
Please contact the author."
Google Desktop - не могу доверить свои документы проприетарщине которая постоянно общается с хозяевами через SSL, да и поддержки inotify нема (или есть?)
Остаются последние два, которые и собираюсь испытать
А какие ещё поисковики есть для Linuх?
Интересующимся
Интересующимся темой данная статья в помощь.
Hardware: Portable: Asus U5A (915 chipset, centrino 1.73 Donath, 1.5 Gb mem, 160 Gb hard, e.t.c)
запрос
А можно ли сделать еще в добавок и gtk-gui?
Ну и в ebuild добавить возможность выбора...
Просто у меня нет ни одного приложения на qt, и ставить библиотеку ради одной программы не очень бы хотелось...
В прошлом посте
В прошлом посте я оставил ссылку на статью описывающую различные индексаторы, там есть упоминание что под Gnome что под Qt, посмотри её.
Recall - только qt.
Hardware: Portable: Asus U5A (915 chipset, centrino 1.73 Donath, 1.5 Gb mem, 160 Gb hard, e.t.c)
про tracker я в
про tracker я в курсе. Просто чем-то же отличается recoll от tracker
для Gnome есть
для Gnome есть Tracker.
Понимаю, что тема «пропахла
Понимаю, что тема «пропахла нафталином», но, к великому моему сожалению, эта замечательная программа не в portage и даже не в оверлее (либо я плохо искал).
Установил app-misc/recoll, воспользовавшись ссылкой, «выгугленной» Scolzyashi'им. Возможности полностью соответствуют заявленным, а теперь их и превосходят (ведь прошло уже почти три года).
К моему удивлению эта программа давно уже доступна в репозиториях «менее прогрессивных», чем Gentoo, дистрибутивов.
Какие действия следует предпринять для продвижения этой программы в дерево?
Я ♥ Gentoo & Funtoo
.
Путь 1-й,фантастический, типо оффициальный:
открыть баг (сделано 3 года назад) http://bugs.gentoo.org/171271,заслать ебилд типа в санрайс, если все хорошо, типа добавят(или не добавят).
Путь 2-й,полуфантастический, но работает: брать дева гентоо на измор или же заинтересовать его этим ебилдом - если заинтересуется- то хорошо, если нет- см. пункт 1 или 3
Путь 3-й, долгий( лет этак на 5 минимум), но с гарантированным результзтом - приобрести необходимые знания, написать таки квизы и,получив право коммита в дерево как дев гентоо, таки добавить ебилд.
Путь 4-й, обычный, быстрый и деструктивный: пинаем народ из оверлеев, не связанных непосредственно с gentoo.ru, получаем ебилд в оверлее,но таки растаскиваем ебилды по оверлеям, что не хорошо.
P.S программа юзерам нужна здесь и сейчас, а не после дождичка в четверг - это и есть причина растаскивания ебилдов.И ,имхо, ситуация, при которой крупнейшим оверлеем является багзилла - не нормальна.мое видение причин этого - это не тема для этого топика.
Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)
http://code.google.com/p/qmel
http://code.google.com/p/qmellon/source/browse?repo=overlay#hg/app-misc/recoll
http://code.google.com/p/qmellon/wiki/Overlay_rus
:)
Добавить в список лаймана
Добавить в список лаймана желания нет ?
Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)
Если бы она не
Если бы она не "конфликтовала" по функциональности со strigi (бездарная вещь, но блин, официальная) то не нужен был бы и бэк-енд в кде-4, такой, как мускул. Там свой бэк-енд, который в официальном дереве портежей есть.
Короче, кому-то из разработчиков nepomuk бы её подсунуть. Всем польза была бы большая...
(Sir) * Windows looks like an open door, but no way to go *