Похож ли Web на галстук-бабочку?
kinik, 8 Июнь 2010, 14:24
Это самое крупное исследование такого рода, и для его проведения был выделен мощный сервер Compaq Alpha Server с оперативной памятью 16 Гбайт, в которой постоянно хранится карта Сети.
Благодаря тому, что обработке было подвергнуто гораздо больше страниц (500 млн), чем в любых предшествующих подобных проектах, ученым удалось получить ряд новых и достаточно неожиданных результатов. Если раньше WWW представлялся однородным образованием, состоящим из тесно связанных между собой узлов, то теперь выяснилось, что все узлы можно отнести к одной из четырех категорий. Авторы новой модели Web дали ей название Bow Tie (галстук-бабочка).
Наряду с группой тесно связанных между собой страниц, образующих узел бабочки, имеется примерно 20% страниц, на которые вообще нет ссылок. Это означает, что их можно достичь лишь заранее зная точный адрес. Еще две группы страниц, суммарное число которых сопоставимо с размером «узла галстука», занимают промежуточное положение. В первую входят те, с которых можно попасть на другие страницы, но сами они «невидимы» для остальных узлов (их можно назвать источниками ссылок). В другую попадают страницы, на которые в Web есть ссылки, но каждая из них представляет собой тупик, из которого не исходят никакие ссылки (своеобразный терминатор). Указанная структура не является статической, поскольку ежедневно рождаются новые Web-узлы, а уже существующие перемещаются с крыльев бабочки в тесно связанное ядро. Тем не менее общий характер «карты» Web качественно не меняется. Не исключено, что построенная математическая модель поможет предсказать грядущие кардинальные метаморфозы в структуре Всемирной паутины, которые будут инициированы ее дальнейшим ростом.
Участники исследования полагают, что его результаты будут использованы и для решения актуальных практических задач. С их помощью, например, можно строить более эффективные стратегии обследования Сети поисковыми машинами. Компании, занимающиеся электронным бизнесом, смогут оптимально организовывать Web-серфинг, размещение рекламы и сбор статистики о действиях клиентов. Еще одна проблема, которую поможет решить это исследование, связана с появлением множества искусственно генерируемых ссылок. Дело в том, что некоторые поисковые машины стали оценивать релевантность результатов не по числу вхождения искомых ключевых слов, а по количеству внешних ссылок на найденную страницу. Разумеется, сразу же появились и всевозможные имитации в виде множества сайтов, заполненных ссылками друг на друга. Участники проекта заявили, что исследования Web будут продолжены.