tengu_crow: (Default)
[personal profile] tengu_crow
Заинтересовался настольными поисковиками. Теми, что дают доступ к текстовой информации, хранящейся в файлах. Потестировал дома Copernic, dtSearch и иже с ними и... остался в жестоком разочаровании.

Маленькое пояснение - программы, о которых я говорю очень похожи на интернетовские поисковики. Занимаются они вот чем - берут все указанные им файлы и составляют по ним индекс-содержание, которое показывает где и какое слово хранится. А когда я задаю запрос на поиск - они вместо того, чтобы пересканировать файлы, просто смотрят по индексу.

Я, наивный, надеялся составить такой индекс для своей дисковой базы (а дисков у меня уже есть довольно много и если бы не каталогер - я имел бы все шансы захлебнуться в потоке информации)...

Ага щаз. Получилось что даже у самой продвинутого поисковика размер индекса составляет не менее 1/5 от индексируемого пространства. У менее продвинутых - примерно 1/2 места, занимаемого индексируемыми файлами. То есть индекс на 120Г диск составит примерно 60Гиг (и нафига мне такое счастье?). При том, что по тексту ищут далеко не все. При том, что пространство в несчастных два десятка Гиг они сканируют по полдня. При том, что далеко не все работают со сменными носителями памяти. Copernic, например вообще занимается черти-чем, вместо индексирования нужной информации (он конечно проиндексировал все .mp3-тэги, но ни до .apc, ни до нежно любимого мной .ogg так и не добрался. не говоря о том, что не проиндексировал мои текстовые файлы).

В общем - ботва. Сплошное разочарование. TC (особенно в тандеме с Cathy или похожим каталогером) оставляет их всех далеко за флагом. Получается, что до сих пор лучший поисковый инструмент - правильно составленное имя файла и хорошо поставленная система сбора данных. Что открыли еще древние римляне - Nomen sunt omen. "Имя есть предзнаменование" или "Имя есть содержимое", если переводить по смыслу.

Date: 2006-02-28 07:47 pm (UTC)
From: [identity profile] urrik.livejournal.com
ыыы! У тебя десятки гигов текстовых файлов?

Date: 2006-02-28 09:22 pm (UTC)
From: [identity profile] mjurphy.livejournal.com
Я поставил на работе ГугльДесктоп, пока рад.
"индекс для своей дисковой базы" - тут уж безусловно WhereIsIt

Date: 2006-03-01 01:42 pm (UTC)
From: [identity profile] tengu-crow.livejournal.com
Вчера, интереса ради посмотрел в каталог Cathy. У меня там уже полторы сотни каталогизированных компактов. Из них треть - дивидюки. При том, что, скажем видео или тематические диски (вроде "полного диска ДДТ") у меня в каталог не попадают (смысла нет). Так что большие объемы налицо. Во всяком случае тенденция роста заставляет задуматься.

Но я об этом думал и пару лет назад, когда все мои архивы умещались ровно на трех компакт-дисках :)

Date: 2006-03-01 01:59 pm (UTC)
From: [identity profile] tengu-crow.livejournal.com
(с интересом) А что и как ищешь? Русские словоформы оно понимает?

WhereIsIt имхо не так уж и безусловен. Опять-таки - тут дело рабочих привычек видимо, однако я привык к молниеносной Cathy :) Причем настолько, что поиск по винту идет тоже в основном через нее (Total по Alt+F7 или AVSearch включаются только для полнотекстового внутрифайлового поиска, причем Тотал используется по локальным директориям "случайно подвернувшимся под руку", а AVSearch специально заточен под тексты Даля/БЭС/БСЭ/Пакгаузу и Фреону). Еще один плюс - каталогизация идет только по именам файлов. Что делает как обновление баз, так и поиск по ним чрезвычайно быстрым.

Date: 2006-03-01 10:44 pm (UTC)
From: [identity profile] mjurphy.livejournal.com
Мнэ. Я обычно ищу по исходникам, с которыми часто общаюсь, по документации и пр ;) То есть я примерно помню, как оно называлось, но совсем не помню - где оно лежит. И тут Гугль спешит на помощь.
Словоформы вряд ли, но я нетребователен - пишу корень и мне этого хватает ;)

Date: 2006-03-04 01:08 pm (UTC)
From: [identity profile] high-way-star.livejournal.com
Ты у меня что, так Ищейку и не забрал?:)

Date: 2006-03-06 09:30 am (UTC)
From: [identity profile] tengu-crow.livejournal.com
Ага. Я поэтому и спросил про. Тут видимо главное все-таки целевая установка :) т.е. зачем понадобился поисковик.

Date: 2006-03-06 10:27 am (UTC)
From: [identity profile] tengu-crow.livejournal.com
Я ее отдельно пробовал. Не вдохновился. Совсем. дтСерч лучшеЕ, но все равно плох :(

Date: 2006-03-07 01:26 pm (UTC)
From: [identity profile] high-way-star.livejournal.com
Хм, а у меня работала отличненько. Хотя нафиг надо :)))

April 2026

S M T W T F S
   1234
5678910 11
12131415161718
19202122232425
2627282930  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 6th, 2026 11:56 pm
Powered by Dreamwidth Studios