Вероятностный подход к оценке
эффективности внешних ссылок.
М.В.Михайленко, к.т.н.
Одной из составляющих задачи выведения страниц в высокие позиции в поисковых системах является повышение их значимости – PageRank Google. Основным методом повышения PageRank является получение внешних ссылок. Однако, в различных публикациях существует ряд противоречий, относительно оценки эффективности каждой отдельной ссылки. Специфика темы заключается в том, что большая часть информации относительно поисковых алгоритмов закрыта. По этой же причине большинство выводов из известных статей носят, во многом, вероятностный характер. Основываясь на сведениях, предоставленных в различных публикациях, форумах, а так же на интуиции и здравом смысле автор предлагает вероятностный подход к оценке эффективности ссылок.
Общеизвестно, что качество получаемой ссылки зависит от PageRank страницы, с которой мы ссылку получаем, и от общего количества ссылок с этой страницы.
Модели, позволяющие рассчитать распределение PageRank по некой совокупности страниц известны. Классическая, очевидно, предложена Александром Садовским в послесловии к статье [1]. Алгоритм расчета этой модели по сути своей итерационен. И, в общем то, традиционный подход позволяет достаточно точно рассчитать PageRank каждой из страниц структуры при задаваемых начальных условиях и структуре связей между страницами.
Однако, при анализе структур, включающих в себя целые кластеры сайтов, вычислительные затраты существенно растут. И, при анализе систем, включающих в себя десятки – сотни сайтов задача уже сопоставима с той, которую решает сам Google.
В работе предложен несколько другой подход к анализу эффективности ссылочных структур. В основе его лежит понятие о вероятности посещения страницы пользователем Интернет. Здесь следует сказать, что вероятностный подход изначально заложен в саму модель расчета PageRank Google. Но, для того, что бы его обосновать, в начале следует упомянуть о том, что же такое есть PageRank по своїй сути. Различные авторы дают ему следующее определения.
Крисом Райдингсом (Chris Ridings) и Джиллом Вэйленом (Jill Whalen) в работе [1] дается следующее определение: PageRank — это метод Google для измерения «важности» страницы. Когда все другие факторы, такие как тэг Title и ключевые слова учтены, Google использует PageRank, чтобы откорректировать результаты так, что более «важные» сайты поднимутся соответственно вверх на странице результатов поиска пользователя.
Согласно Филу Крэйвену PageRank Google — это его собственный способ определения важности оцениваемой страницы. PageRank представляет собой численное значение, которое отражает, насколько значима данная страница в Интернете [2]. Google полагает, что когда одна страница ссылается на другую, она словно «отдает свой голос» за другую страницу. Тогда, чем больше голосов отдано за страницу, тем важнее эта страница должна быть. Кроме того, «отданные голоса» отличаются по значимости в зависимости от того, «кто» голосует. Google подсчитывает важность оцениваемой страницы, исходя из «голосов», отданных за нее. При этом в процессе производства расчетов Google учитывает, насколько важен (весом) каждый из отданных «голосов».
Согласно А.Шкодину, PageRank - статическая величина, предназначенная для оценки
качества страниц не зависимо от каких либо запросов, т.е. с помощью PageRank вычисляется “глобальная ценность” каждой страницы.
За основу PageRank был выбран академический подход оценки важности публикации автора по числу её упоминаний в библиографических ссылках других авторов. Для адаптации к применению в Интернет в алгоритм были внесены следующие изменения: вес каждой ссылки учитывается индивидуально и нормируется по числу ссылок на ссылающейся странице. Кроме того, PageRank может быть интерпретирован в терминах случайного блуждания [3].
Что касается алгоритмов расчета PageRank, то этому вопросу посвящено очень много работ. Однако, большинство авторов ссылаются на статью создателей Google Сергея Брина и Ларри Пейджа, разработавших технологию дополнительного ранжирования результатов выдачи поисковиков. Согласно ей,

(1)
При этом, что важно, во всех статьях указывается, что сам алгоритм вычисления PageRank итерационный (следовательно, не линеен по своей сути). Примечательно, что именно здесь вводится так называемый “коэффициент затухания”. По сути своей этот коэффициент есть вероятность того, что пользователь последует по ссылке (хотя бы одной из всей совокупности ссылок) на текущей странице. Следовательно, (1-d) – вероятность т.н. “случайного прыжка ” – ухода пользователя с текущей страницы не по ссылке на текущей странице, а каким либо другим образом.
А. Шкодин приводит модель расчета PageRank, которая основана на оценке вероятности посещения страницы среднестатистическим пользователем [3]. Любопытно, что вероятность того, что пользователь последует по ссылке на текущей странице (аналог коэффициэнта затухания d в предидущей модели) в согласно данной статьи находится в пределах 0.85 < d < 0.9 .
Описанная
А. Шкодиным модель основана на том предположении, что
функция распределения плотности вероятности посещения
страницы среднестатистическим пользователем распределена по всему
количеству страниц, известных поисковой системе, с весом, равным PageRank. Для каждой из известных
поисковой системе страниц, составляется система уравнений, в основу которой
положено выражение (1). В результате
решения которой и получаем вес для каждой из страниц. Несколько
отвлекаясь, нужно заметить, что существует
масса работ, которые посвящены именно алгоритмам решения этой системы уравнений
при большом количестве страниц.
Такая модель полностью соответствует утверждению, высказанному в работе [1], о том, что PageRank — это, по сути, вес страницы.
По данным выступлений основателей Google, миллиарды страниц интернета имеют средний вес PageRank порядка 1.0 на страницу. Таким образом, общий PageRank интернета эквивалентен количеству страниц на вебе, умноженному на 1, что в масштабах всего интернета дает огромное количество PageRank, распределяемого внутри всего Интернета [2].
Согласно результатам исследований [4] сейчас Google индексирует порядка 3 миллиардов страниц. И количество страниц утраивается каждый год. Следовательно, логично предположить, что суммарный PageRank – величина такого же порядка.
Пользователю доступна некая оценка истинного значения PageRank, отображаемая в ToolBar Google. Далее в статье она будет обозначаться как PR. (В статье [1] предлагается ввести понятия “Настоящий PR” для обозначения подлинного веса PageRank, хранимого Google, и “Тулбаровский PR” для обозначения довольно скупого представления того, что тулбар Google позволяет нам видеть).
ToolBar Google дает только представление реального веса PageRank. В то время как вес PageRank линеен, Google решили показывать его на нелинейной диаграмме. Шкала на ToolBar Google градуирована от 1 до 10 [2].
На основании того, что, чем в более высоком диапазоне находится выводимый показатель PR, тем все более трудно добиться его дальнейшего повышения, многие люди полагают, что градуировка производится по логарифмической шкале, или на очень похожем принципе [2]. Вероятно, что на самом деле модель расчета отображаемого значения не строго логарифмическая, а основана на алгоритмах быстрого вычисления отображаемого значения PR.
Т.е. отображаемое значение целочисленное PR связано с весом PageRank соотношением, близким к:
PR=[Log x (PageRank)] (2)
Где [] – операция выделения целой части числа.
По поводу значения основания логарифма X нет единого мнения. Фил Крэйвен на момент написания статьи полагал, что на самом деле, навряд ли основание логарифма составляет ровно 10. Некоторые исследователи считали, что это 5 или 6, а, возможно, даже и менее [2].
Но, с другой стороны:
- во первых, согласно выступлению основателей Google “ общий ПэйджРанк интернета эквивалентен количеству страниц, о которых поисковику известно, умноженному на 1” [2];
- во вторых, согласно работе [3], функция распределения плотности вероятности посещения страницы среднестатистическим пользователем распределена по всему количеству страниц, известных поисковой системе, с весом, равным PageRank. Т.е. согласно этой модели, вероятность посещения хотя бы одной страницы из всех индексируемых поисковиком равна 1;
- количество страниц в Интернет утраивается с каждым годом, что, по логике вещей, должно привести к необходимости коррекции значения x.
Собственно говоря, последнее, вероятнее всего, и происходит. По мере того как количество страниц в Интернет постоянно возрастает, суммарный PageRank также растет. А, коль скоро растет суммарный PageRank, расположение позиций градуировки шкалы должно меняться. При этом некоторые страницы опускаются на указателе ToolBar по «непонятным» причинам. Это является еще одним косвенным свидетельством пересчета и коррекции значения основания логарифма x.
Согласно результатам исследований [4] на момент написания этой статьи Google индексирует порядка 3 миллиардов страниц. И количество страниц утраивается каждый год. Следовательно, логично предположить, что суммарный PageRank – величина такого же порядка.
Из всего вышесказанного вполне логичным представляется вывод, что значение x может быть найдено из уравнения (2) при подстановке в него значений PR=10, PageRank=3*10E9. Получаем x~9.5.
Можно, конечно, положить определенное количество денег и времени на уточнение значения основания логарифма x. Но имеет ли это какой – либо смысл? Тем более, что с большой вероятностью можно утверждать то, что он растет с повышением общего количества страниц в сети. И уж точно, если не сегодня, то завтра превысит значение x=10.
Как бы там ни было, сути предлагаемого далее подхода к оценке эффективности получаемой ссылки, значение x не меняет.
Предлагаемая методика оценки эффективности ссылки, по сути своей, основана на том предположении, что получаемая ссылка повышает вероятность посещения ресурса, на который ссылаются.
Допустим, имеется некая страница, назовем ее A, c показателем по шкале ToolBar = PRA. Вероятность посещения этой страницы pа среднестатистическим пользователем равна отношению PageRankА / PageRankОбщ .
pа = x (PRa-10)
Допустим, имеется некая страница, назовем ее B, c показателем по шкале ToolBar = PRB. Вероятность посещения этой страницы pb среднестатистическим пользователем равна отношению PageRankB / PageRankОбщ .
pb = x (PRb-10)
pba = d*( x (PRb-10) )/ Nb


pа = x (PRa-10) = 10-7 ; pb = x (PRa-10) = 10-5 ; pba = d*( x (PRb-10) )/ Nb = 2.125* 10-7 ;
pа = x (PRa-10) = 10-7 ; pb = x (PRa-10) = 10-4 ; pba = d*( x (PRb-10) )/ Nb =
1.0 * 10-5 ;
В настоящее время появляется целый ряд работ, позволяющих существенно сократить вычислительные затраты поисковых систем. Так, один из участников так называемого стенфордского проекта Сепандар Камвар говорит следующее: «При использовании всех этих методов возможно еще большее ускорение, Наши предварительные эксперименты показывают, что их комбинация сделает вычисление PageRank впятеро быстрее. Однако нам предстоит решить ряд проблем. Сейчас мы ближе к тематическому PageRank, чем к персонализированному ранжированию» [4]. Здесь хочу отметить, что когда будет введена такая величина, как “тематический PageRank”, и, если (!) шкала, его отображающая будет использовать алгоритмы, аналогичные ToolBar Google, то значения основания логарифма x для должно быть значительно ниже 10-ки. В этой связи рекомендации, высказанные в свое время Бобом Масса (Bob Massa) [5] приобретают особый смысл:
“Если вы хотите добиться лучших рейтингов в результатах поиска, вне зависимости от того, проводит ли индексацию робот-паук или человек, вам просто надо «думать» как человек, а не как компьютерная программа. Логика, здравый смысл и вежливость по отношению к другому человеку всегда будут лучше, чем любой компьютерный язык. Если вы поймете, что вы работаете с реальными людьми, которые не так уж и сильно отличаются от вас самих, перестанете думать, что вы – всего лишь имя пользователя и пароль, пытающиеся обмануть компьютер, то уровень трафика (и, что намного важнее, уровень продаж) возрастет”.
[1] Растолкованный PageRank,
http://portal.adverman.com/modules/news/article.php?storyid=306
http://www.digits.ru/articles/promotion/pagerank.html
Написано и придумано Крисом Райдингсом (Chris Ridings). Отредактировано Джилл Вэйлен (Jill Whalen). Переведено на русский язык и прокомментировано Александром Садовским.
[2] Что такое PageRank (ПэйджРанк) Google'а и как его
получить
http://portal.adverman.com/modules/news/article.php?storyid=311
http://www.bdbd.ru/articles/what_is_googles_pagerank_part_one.htm
Фил Крэйвен
[4] Google может считать PageRank впятеро быстрее
http://promo.by/searchengines/google_up.html
[5] Основные правила web-оптимизации
http://portal.adverman.com/modules/news/article.php?storyid=338
Автор:
Боб Масса (Bob Massa)
Написано специально для AdverMAN.com .
Статья занесена в каталог статей “NEXT”