Индексирование Web-узлов

Фильтры содержимого


Фильтры содержимого — это программы, позволяющие индексировать файлы различных типов. Обычно документы, созданные конкретным приложением, хранят в файлах специального формата. Например, формат файлов документов WordPerfect отличается от формата файлов документов Microsoft Word. Для индексирования фай лов специальных форматов Index Server использует фильтры содержимого. Фильтры, как следует из их назначения, “умеют”:

  • извлекать из документа текстовые фрагменты;
  • распознавать смену языка в многоязычных документах;
  • обрабатывать встроенные объекты.

Когда фильтр содержимого встречает в документе встроенный объект, он определяет его тип и активизирует соответствующий фильтр. Таким образом, Index Server может индексировать не только текст документа Word, но и любой текст встроенной в него таблице Microsoft Excel.

Поскольку за обработку всех деталей конкретного файлового формата означает фильтр, для индексирования файлов конкретного формата достаточно добавить соответствующий фильтр. Таким образом, Вы легко расширите список форматов, которые поддерживает Index Server.



Содержание раздела