ПОИСКОВЫЕ СИСТЕМЫ
Поисковые системы — это специально созданные системы для поиска информации в Интернете по заданным условиям. Они используют механизмы контекстного поиска по ключевым словам в индексных базах данных.
Эти механизмы охватывают достаточно большую часть информационных ресурсов Интернета. Поисковые механизмы иногда называют роботами, пауками, слайдерами или программными агентами (от англ, robot (сокращенно bot), spider, crawler, agent). Такой механизм сканирует Интернет, отыскивая новые М?£-адреса, а также посещает старые и индексирует содержимое их текстовой части и ключевые слова, а затем заносит их в свою базу данных.При поиске документов по ключевым словам происходит обращение к этой базе данных и выборка тех ί/ΛΖ-адресов, по которым найдены комбинации указанных ключевых слов.
Обычно в поисковых системах заполняется форма, в которой указывается, что именно нужно найти, и поиск активизируется щелчком по кнопке «Поиск».
По окончании поиска такая система возвращает список сайтов, которые удовлетворяют критериям поиска. В этом списке обычно представлены ссылки на различные веб-страницы (может быть от единиц до десятков тысяч ссылок). Обычно ссылки располагаются по степени убывания слов, совпадающих с ключевыми словами. Большинство поисковых серверов дают возможность самому выбрать тип сортировки найденных ссылок (например, по дате создания страниц). Адреса основных поисковых систем приведены в табл. 6.2.1.
Основные поисковые системы
| Поисковая система | URL-адрес |
| http://www. google, com http://www. google, ru | |
| Altavista | http:/Ίwww.altavista.com |
| Lycos | http://www. Iycos. com |
| Excite | http://www. excite, com |
| HotBot | http://www. hotbot. com |
| Yahoo! | http:// www. yahoo, com |
| Rambler | http: /I www. rambler, ru |
| Yandex | http://www. yandex. ru |
| Aport | http://www.aport.ru |
По данным популярного европейского сервиса интернет-статистики OneStatxom, в феврале 2003 г. семерка наиболее популярных поисковых систем выглядит следующим образом, %: I) Google — 54,7; 2) Yahoo!- 22,1; 3) MSN Search - 9,5; 4) AOL Search - 3,7;
5) Terra Lycos — 2,8; 6) Altavista — 2,5; 7) Askjeeves — 1,5.
По данным системы статистики Rax.ru, десятка популярных поисковых систем в российском сегменте Интернета выглядит так, %: I) Yandex— 45,6; 2) Rambler— 25,6; 3) Goggle— 18,4;
4) ,4^0/7 — 4,7; 5) Yahoo! — 2,1; 6) MSN Search — 1,9; 7) Search.Mail ru — 1,4; 8) Lycos — 0,1; 9) AllTheWeb — 0,1; 10) DogPile — 0,01.
Англоязычные поисковые системы
Поисковая система Google — одна из мощнейших поисковых систем (www.google.com, www.google.ru, рис. 6.2.2). Сервер Google осуществляет поиск почти на 100 языках, в том числе и на русском, и использует паук Googlebot. Название поисковой системы Google было образовано в результате игры букв в слове googol (в переводе с англ. «10 в степени 100»). Этим компания подчеркивает свое намерение индексировать и обрабатывать большие объемы информации.
По заявлению компании, на данный момент ее база данных насчитывает более 1 346 966 000 проиндексированных страниц.
Об успехе этой поисковой системы говорит и то, что в июне 2000 г. такая крупная интернет-компания, как Yahoo!, выбрала Google дополнительным поставщиком результатов вместо Inktomi.
Рис.
6.2.2. Окно поисковой системы GoogleКак наиболее весомый фактор релевантности страницы эта система использует индекс цитирования (link popularity). В результате большим и популярным сайтам проще попасть на высокие позиции в результатах поиска.
Помимо индекса цитирования при ранжировании страниц учитываются также плотность и частота ключевых слов, ключевые слова в ссылках и выделенный текст.
При выдаче результатов в списке выдаются ссылка на страницу и описание, составленное из слов, которые окружают встретившийся поисковый запрос на странице.
Google — одна из немногих поисковых систем, которая глубоко индексирует сайг (т.е. старается пройтись по всем гиперссылкам, найденным на сайте). Еще одной отличительной особенностью этой системы является то, что с ее помощью можно найти страницы, которые не содержатся в ее базе данных, так как поисковый паук индексирует и текст ссылок страниц.
В разделе расширенного поиска Google имеется большое количество дополнительных поисковых функций. В разделе «Предпочтения» {preferences) можно настроить удобный для пользователя вид вывода результатов. Также в системе дополнительно имеется безопасный поиск для детей {SafeSearch), настроить который можно и через функцию расширенного поиска, и через настройку предпочтений.
Поисковая система Altavista — одна из самых популярных поисковых систем (www.altavista.com, www.altavista.ru) — появилась в декабре 1994 г. Первоначально она задумывалась как средство для демонстрации нового сервера Alpha APX корпорации Digital Equipment, но очень быстро стала самостоятельным и мощным средством поиска.
На сегодняшний день в базе данных Altavista зарегистрировано до 100 млн [/ΖΪΖ-адресов. Эта система поддерживает поиск на 25 языках, в том числе и на русском. К достоинствам этой системы относится ее дизайн, сервер не перегружен рекламой и графикой, что позволяет страницам загружаться очень быстро (рис. 6.2.3).
Рис.
6.2.3. Окно поисковой системы AltavistaНедостатком системы Altavista является то, что неработающие ссылки не удаляются из базы данных автоматически и в результате некоторых запросов число недействующих ссылок может быть достаточно велико (до 12%).
В системе Altavista простой запрос выдает большое количество результатов, многие из которых совершенно не нужны, а использование сложных (расширенных) запросов требует освоения специального языка. Результаты поиска сортируются с учетом частоты встречаемости ключевых слов в документе, учитывается также раздел, в котором встречается ключевое слово (заголовок, название страницы и т.д.), однако не производится сортировка по тематике.
Улучшает ситуацию наличие функции «Уточнить». На странице с результатами поиска нужно нажать кнопку «Refine», после чего появится список терминов, которые наиболее часто встречаются в одном контексте с ключевым словом. Рядом с каждым термином есть выпадающий список, в котором можно выбрать, относится ли это слово к теме поиска или нет.
Русскоязычные поисковые системы
Поисковая система Yandex (www.yandex.ru, рис. 6.2.4) была создана в сентябре 1997 г. Это русскоязычная поисковая система, имеющая на данный момент самую большую базу данных,
Рис. 6.2.4. Окно поисковой системы Yandex
размещенную на более чем 1,5 млн серверов, и насчитывающая более чем 500 млн уникальных документов.
У Yandex достаточно быстрый поисковый робот. Уже через 2 часа регистрируемая страница проходит первичную индексацию и появляется в поисковых результатах.
При ранжировании сайтов система Yandex использует методику вычисления взвешенного индекса цитирования. Взвешенный индекс цитирования — пересчитанный индекс цитирования, учитывающий популярность ссылающихся сайтов.
Поисковая система Yandex содержит более 20 дополнительных бесплатных сервисов: Яндекс.Маркет, где содержится информация о различных товарах, представленных в более чем 200 электронных магазинов; Яндекс.Бар, где можно найти индикатор взвешенного индекса цитирования сайта, страница которого открыта в данный момент в браузере; Яндекс.Почта; Яндекс.Деньги и т.д.
Поисковая система Rambler создана в сентябре 1996 г. (www.rambler.ru, рис. 6.2.5).
Рис. 6.2.5. Окно поисковой системы Rambler
На сегодняшний день объем проиндексированных страниц составляет более 2 млн. Аудитория Rambler составляет более 1 млн посетителей в день.
Rambler поддерживает все кодировки русского языка и обладает высоким быстродействием. Робот Rambler, индексирующий российский Интернет, обходит его достаточно часто. При этом неработающие страницы удаляются.
На Rambler функционирует рейтинговая система Rambler's Тор 100 (www.rambler.ru/toplOO), в которой можно найти список наиболее посещаемых сайтов по выбранной тематике.
На странице поиска находятся ссылки на расширенный поиск, справочная информация и ссылки для смены кодировок русского текста. Запросов на естественном языке Rambler не поддерживает, поэтому ключевые слова лучше вводить без окончаний (можно использовать маски для ввода: ? — любая буква; * — любое окончание слова).
В результатах поиска выводится полная информация — адрес, название страницы, размер страницы, кодировка, контекст, в котором встречается слово, и процент релевантности. Недостатком системы, как и в системе Altavista, является то, что при простом поиске на Rambler релевантность результатов невысокая. Но при этом поисковая система обладает многообразием средств для расширенного поиска.