(no subject)
Feb. 28th, 2006 02:55 pmЗаинтересовался настольными поисковиками. Теми, что дают доступ к текстовой информации, хранящейся в файлах. Потестировал дома Copernic, dtSearch и иже с ними и... остался в жестоком разочаровании.
Маленькое пояснение - программы, о которых я говорю очень похожи на интернетовские поисковики. Занимаются они вот чем - берут все указанные им файлы и составляют по ним индекс-содержание, которое показывает где и какое слово хранится. А когда я задаю запрос на поиск - они вместо того, чтобы пересканировать файлы, просто смотрят по индексу.
Я, наивный, надеялся составить такой индекс для своей дисковой базы (а дисков у меня уже есть довольно много и если бы не каталогер - я имел бы все шансы захлебнуться в потоке информации)...
Ага щаз. Получилось что даже у самой продвинутого поисковика размер индекса составляет не менее 1/5 от индексируемого пространства. У менее продвинутых - примерно 1/2 места, занимаемого индексируемыми файлами. То есть индекс на 120Г диск составит примерно 60Гиг (и нафига мне такое счастье?). При том, что по тексту ищут далеко не все. При том, что пространство в несчастных два десятка Гиг они сканируют по полдня. При том, что далеко не все работают со сменными носителями памяти. Copernic, например вообще занимается черти-чем, вместо индексирования нужной информации (он конечно проиндексировал все .mp3-тэги, но ни до .apc, ни до нежно любимого мной .ogg так и не добрался. не говоря о том, что не проиндексировал мои текстовые файлы).
В общем - ботва. Сплошное разочарование. TC (особенно в тандеме с Cathy или похожим каталогером) оставляет их всех далеко за флагом. Получается, что до сих пор лучший поисковый инструмент - правильно составленное имя файла и хорошо поставленная система сбора данных. Что открыли еще древние римляне - Nomen sunt omen. "Имя есть предзнаменование" или "Имя есть содержимое", если переводить по смыслу.
Маленькое пояснение - программы, о которых я говорю очень похожи на интернетовские поисковики. Занимаются они вот чем - берут все указанные им файлы и составляют по ним индекс-содержание, которое показывает где и какое слово хранится. А когда я задаю запрос на поиск - они вместо того, чтобы пересканировать файлы, просто смотрят по индексу.
Я, наивный, надеялся составить такой индекс для своей дисковой базы (а дисков у меня уже есть довольно много и если бы не каталогер - я имел бы все шансы захлебнуться в потоке информации)...
Ага щаз. Получилось что даже у самой продвинутого поисковика размер индекса составляет не менее 1/5 от индексируемого пространства. У менее продвинутых - примерно 1/2 места, занимаемого индексируемыми файлами. То есть индекс на 120Г диск составит примерно 60Гиг (и нафига мне такое счастье?). При том, что по тексту ищут далеко не все. При том, что пространство в несчастных два десятка Гиг они сканируют по полдня. При том, что далеко не все работают со сменными носителями памяти. Copernic, например вообще занимается черти-чем, вместо индексирования нужной информации (он конечно проиндексировал все .mp3-тэги, но ни до .apc, ни до нежно любимого мной .ogg так и не добрался. не говоря о том, что не проиндексировал мои текстовые файлы).
В общем - ботва. Сплошное разочарование. TC (особенно в тандеме с Cathy или похожим каталогером) оставляет их всех далеко за флагом. Получается, что до сих пор лучший поисковый инструмент - правильно составленное имя файла и хорошо поставленная система сбора данных. Что открыли еще древние римляне - Nomen sunt omen. "Имя есть предзнаменование" или "Имя есть содержимое", если переводить по смыслу.
no subject
Date: 2006-02-28 07:47 pm (UTC)no subject
Date: 2006-02-28 09:22 pm (UTC)"индекс для своей дисковой базы" - тут уж безусловно WhereIsIt
no subject
Date: 2006-03-01 01:42 pm (UTC)Но я об этом думал и пару лет назад, когда все мои архивы умещались ровно на трех компакт-дисках :)
no subject
Date: 2006-03-01 01:59 pm (UTC)WhereIsIt имхо не так уж и безусловен. Опять-таки - тут дело рабочих привычек видимо, однако я привык к молниеносной Cathy :) Причем настолько, что поиск по винту идет тоже в основном через нее (Total по Alt+F7 или AVSearch включаются только для полнотекстового внутрифайлового поиска, причем Тотал используется по локальным директориям "случайно подвернувшимся под руку", а AVSearch специально заточен под тексты Даля/БЭС/БСЭ/Пакгаузу и Фреону). Еще один плюс - каталогизация идет только по именам файлов. Что делает как обновление баз, так и поиск по ним чрезвычайно быстрым.
no subject
Date: 2006-03-01 10:44 pm (UTC)Словоформы вряд ли, но я нетребователен - пишу корень и мне этого хватает ;)
no subject
Date: 2006-03-04 01:08 pm (UTC)no subject
Date: 2006-03-06 09:30 am (UTC)no subject
Date: 2006-03-06 10:27 am (UTC)no subject
Date: 2006-03-07 01:26 pm (UTC)