Нефть и песок О стали Компрессор - подбор и ошибки Из истории стандартизации резьб Соперник ксерокса - гектограф Новые технологии производства стали Экспорт проволоки из России Прогрессивная технологическая оснастка Цитадель сварки с полувековой историей Упрочнение пружин Способы обогрева Назначение, структура, характеристики анализаторов Промышленные пылесосы Штампованные гайки из пружинной стали Консервация САУ Стандарты и качество Технология производства Водород Выбор материала для крепежных деталей Токарный резец в миниатюре Производство проволоки Адгезия резины к металлокорду Электролитическое фосфатирование проволоки Восстановление корпусных деталей двигателей Новая бескислотная технология производства проката Синие кристаллы Автоклав Нормирование шумов связи Газосварочный аппарат для тугоплавких припоев
Главная страница / Архитектура отрасли

Я ИДУ ИСКАТЬ...

В настоящее время в путеводителе по специализированным

каталогам Invisibleweb.com зарегистрировано около 10 тыс. информационно-поисковых систем (ИПС). Наряду с ними существует боль-шое количество вспомогательных средств, облегчающих поиск: утилиты, экспертные узлы, списки ссылок и др.

В поисках необходимой информации пользователи обращаются к каталогам (справочникам), в которых ссылки на ресурсы сети сгруппированы по тематике и имеют иерархическую структуру, либо к собственно информационно-поисковым системам, осуществляющим поиск по имеющейся базе данных. Каталоги обычно формируются редакторами, базы данных ИПС наполняются автоматически после просмотра опубликованных в сети документов и индексации их содержимого.

Каков вопрос – таков ответ

Обращаясь к ресурсам Интернета в поисках нужной информации, необходимо прежде всего точно сформулировать, какую информацию и с какой целью вы хотите найти. Оттого, как составлен запрос, в большой степени зависит, будет ли найдена необходимая информация и какое количество ненужных ссылок выдаст поисковая система.

Поиск обычно ведется по одному или нескольким ключевым словам, которые должны максимально точно определять содержание документа. Разумеется, что слова должны быть правильно написаны, поэтому лучше всего уточнить термины в словаре или тезаурусе. Если запрос состоит из часто употребляемых слов, поисковая система выдаст огромное количество ссылок, а значит, придется потратить немало времени, чтобы выбрать нужные. В таком случае стоит повторить поиск, но предварительно следует ввести дополнительные ключевые слова. Если ИПС не находит ни одной ссылки или их очень мало, нужно переформулировать запрос, подобрать синонимы или удалить некоторые из ключевых слов.

Опытные пользователи владеют множеством приемов, позволяющих получить результат поиска в сети максимально оперативно. Обычно они применяют расширенный поиск, используя «язык запросов», который в разных ИПС имеет свои особенности. Такой способ позволяет получать ссылки только на документы, относящиеся к конкретному периоду времени, документы, не содержащие тех или иных слов и словосочетаний (что очень удобно, когда важный для поиска термин входит в устойчивое широко употребляемое выражение), документы на определенном языке и т. д.

Получив запрос, ИПС просматривает базу данных, выбирает отвечающие требованиям пользователя документы и ранжирует ссылки на них – чаще всего по убыванию релевантности документов. Список ссылок различные ИПС представляют по-разному. Могут выдаваться ссылки с кратким описанием, позаимствованным из заголовка или из фрагментов документа, а также указываться мера соответствия документа запросу. Появились ИПС, анализирующие документы, с которыми работает пользователь, и состав предыдущих запросов, что позволяет определить область его информационных интересов и учесть ее в ходе поиска.

Основные показатели качества ИПС – точность поиска.

Каталоги и рейтинг (справочников) значительно уступают по объему базам поисковых машин, вероятность нахождения нужных сведений (если они содержатся в базе) с их помощью выше. К тому же ссылки на найденные ресурсы содержат обычно краткую их аннотацию.

Среди зарубежных каталогов пользуются популярностью Yahoo!, Open Directory и Look Smart (http://www.osp.ru/pcworld/2000/11/068.htm). Open Directory отличается большим объемом проиндексированных страниц (около 2 млн. сайтов).

Что касается российских справочников, то можно выделить List (Mail.ru), «АПОРТ», UserLine и Russia on the Net. Каталог поисковой системы АПОРТ – наиболее полный справочник в Рунете: содержит свыше 250 тыс. ссылок на ресурсы Сети. List представляет собой рубрицированный каталог аннотированных ссылок и рейтинг сайтов. Обеспечивает возможность поиска по более чем 150 тыс. сайтов. В каталоге UserLine представлены аннотации на 187 тыс. серверов, самостоятельно заявленных разработчиками (что порой не гарантирует объективности аннотаций).

Поисковые системы

Поисковые системы состоят из агента, или «паука» – специальной программы, которая обходит сеть и собирает информацию, базы данных и программы обработки запросов. Они различаются по тому, насколько полно обрабатываются тексты, как часто обновляются данные, каким образом определяется соответствие данных запросу; кроме того, учитывается простота и информативность пользовательского интерфейса. Так, «полнотекстовые» поисковые машины индексируют каждое слово на Web-странице, исключая лишь некоторые «стоп-слова». «Абстрактные» поисковые машины создают поисковый образ каждой страницы, который включает (по определенному набору правил) некоторые слова из текста. При поиске этот образ используется вместо реального документа.

Ведущие поисковые машины могут установить популярность документа по

тому, как часто на него даются ссылки в Сети. В ряде случаев на основании таких данных определяют, стоит ли индексировать документ. Учет индекса цитирования (Яндекс, Google) позволяет увеличить релевантность поиска.

Владельцы конкурирующих поисковых систем предпочитают

оказывать пользователям дополнительные услуги, потому часть поисковых серверов превратилась в Web-порталы. И хотя многие материалы портала действительно интересны, интерфейс, к сожалению, часто загроможден второстепенными функциями.

Специальные поисковые

инструменты

Наряду с универсальными поисковыми машинами и справочниками существует большое количество вспомогательных средств поиска.

В том случае, если можно четко сформулировать тематику запроса, эффективным средством поиска являются тематические списки ссылок на Web-страницах. Однако их объем часто ограничен (в основном это касается персональных страниц), к тому же они могут содержать устаревшие данные.

Когда на Web-сервере накапливается много документов (электронные библиотеки, архивы журналов), он оснащается собственным поисковым механизмом, который по универсальные ИПС.

В последнее время появляются новые инструменты, облегчающие поиск – например, «Яндекс-бар», который устанавливается на компьютере пользователя. Поисковая система в таком случае становится частью браузера и обеспечивает возможность быстрого поиска (по сайту или Сети) при помощи нескольких ИПС, а также ряд других возможностей, таких как перевод строки запроса.

Тематические поисковые системы охватывают практически все области знаний и в рамках своей темы превосходят по эффективности ИПС общего назначения. Результаты поиска отличаются высокой релевантностью, практически отсутствует «информационный шум».

Экспертные узлы – это информационные центры, работа которых строится с участием эксперта (Abuzz, AskMe, Look Smart Life). Результаты их поиска могут различаться, что зависит от состава и компетенции экспертов. Платные экспертные узлы предлагают услуги специалистов высокой квалификации.

Для поиска информации о конкретных людях или организациях можно воспользоваться каталогами желтых и белых страниц в Интернете (Four11, Bigfoot или Swithboard).

Системы метапоиска

Различия в широте охвата источников информации, стратегии поиска и мощности систем приводят к тому, что разные ИПС дают разные результаты поиска по одному и тому же запросу. Этим воспользовались разработчики метапоисковых систем, которые не ведут собственных индексов. Каждый запрос передается нескольким поисковым машинам и каталогам. Полученные результаты объединяются, удаляются повторы, проверяется актуальность ссылок. Пользователю предлагается больше адресов, чем по результатам поиска на одном узле.

Среди зарубежных метапоисковых серверов выделяют Cyber411, Mamma Meta Search, Meta Crawler. Для поиска в Рунете может быть полезен классический вариант метапоисковой системы MetaBot.Ru, которая одновременно опрашивает несколько ведущих поисковых

систем и выдает компактный, предварительно отсортированный и проанализированный перечень результатов. Интеллектуальный метапоисковый агент WebMachine осуществляет одновременный поиск по нескольким серверам, сохраняет и обрабатывает его результаты. Система включает 447 поисковых скриптов (в бесплатной версии 36) по 54 темам.

В последнее время быстро растет популярность программ, помогающих производить поиск с использованием сразу нескольких ИПС. Одна из таких программ – Copernic 2001 (www.copernic.com) – представлена в трех версиях: базовая распространяется бесплатно, две другие, обладающие рядом дополнительных возможностей, – на платной основе.

Программа не только дает возможность вести поиск по нескольким десяткам поисковых систем, но и позволяет выбрать категории данных для поиска. Преимущество Copernic 2001 в том, что из результатов поиска она исключает дубликаты и тем самым экономит время пользователя.

Основные проблемы при построении метапоисковых систем заключаются в том, что предельные числовые значения параметров при индексировании информации в конкретных ИПС, о неизвестны. Разработчики не разглашают эти сведения, чтобы создатели сайтов не могли использовать их в целях завышения позиций своих сайтов, что привело бы к засорению поисковых индексов и снижению эффективности поиска. Поэтому в ряде случаев метапоиск может даже уступать в релевантности ведущим поисковым серверам, что связано со сложностью логического объединения ссылок, полученных от разных поисковых машин.

Негативные аспекты поиска в Интернете

Как видно из этого краткого обзора, ассортимент средств поиска обширен и в большинстве случаев удается найти нужные сведения. Однако не следует забывать о том, что обращение к Сети в поисках информации может иметь и негативные последствия. В силу специфики ИПС нередко приходится тратить много времени на просмотр результатов поиска. При этом сохраняется вероятность получения устаревшей и недостоверной информации. Кроме того,

начиная поиск, пользователь сообщает в Сети о своих интересах и, следовательно, существует возможность (в случае его идентификации) отследить его информационные потребности.

Мониторинг потребностей пользователя может носить вполне безобидный характер. К примеру, обобщенную информацию о составе и информационных пристрастиях своей аудитории собирают многие компании, заинтересованные в повышении эффективности работы. Так, например, по данным поисковой системы «Рамблер», руководители высшего звена посещают в основном юридические и банковские сайты, руководителей среднего звена интересует аналитическая информация и базы данных о компаниях. Отдельные ИПС (Watson) пытаются моделировать и учитывать контекст запрошенной информации исходя из содержимого документов, которые клиент ранее редактировал средствами Microsoft Word или просматривал в Internet Explorer. Документы анализируются с помощью эвристического алгоритма, поддерживающего весовые коэффициенты и выявляющего характерные слова.

Широко применяется персонификация поиска с использованием механизма, способного отслеживать предыдущие запросы клиента и выбранные им документы. На основе этой информации делается вывод о сфере его интересов (Google). Для повышения релевантности результатов поиска в Web все чаще используются методы, позволяющие прогнозировать контекст пользовательских запросов (Excite, Lycos, Google и Yahoo!).

Эти приемы и инструменты способствуют повышению эффективности поиска информации, интересующей конкретного пользователя, однако выявление информационных пристрастий клиентов в некоторых случаях позволяет собирать информацию о деятельности организаций и даже прогнозировать их поведение. Потому нельзя исключить вероятность злонамеренного использования соответствующих данных.

Нетрудно убедиться в том, что идеальной системы поиска информации в Интернете не существует. Как правило, приходится использовать несколько информационно-поисковых систем, обращаться к системам метапоиска и другим вспомогательным средствам (в зависимости от предметной области, глубины поии).

Главная страница / Архитектура отрасли