Индекс цитирования (или ИЦ) — принятая в научном мире мера «значимости» трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная.
Наш тематический индекс цитирования (тИЦ) определяет «авторитетность» интернет-ресурсов с учетом качественной характеристики ссылок на них с других сайтов. Эту качественную характеристику мы называем «весом» ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Само по себе количество ссылок на ресурс также влияет на значение его тИЦ, но тИЦ определяется не количеством ссылок, а суммой их весов.
тИЦ как средство определения авторитетности ресурсов призван обеспечить релевантность расположения ресурсов в рубриках каталога Яндекса. тИЦ не является чисто количественной характеристикой, поэтому мы показываем некоторые округленные значения, которые помогают ориентироваться в «значимости» («авторитетности») ресурсов в каждой области (теме).
Идея индекса цитирования проста - как правило, люди, создающие свой сайт в интернете, с вниманием и ответственностью относятся к его содержанию, а также к содержанию того, на что они ссылаются и что таким образом рекомендуют своим посетителям. Наш тематический индекс учитывает количество ссылок на сайт с других сайтов, придавая этим ссылкам разный "вес" (то есть значимость) в зависимости от авторитетности ссылающегося сайта.
PR Page Runk
ПэйджРанк представляет собой численное значение, которое отражает, насколько значима данная страница в интернете. Гугл полагает, что когда одна страница ссылается на другую, она словно «отдает свой голос» за другую страницу. Тогда, чем больше голосов отдано за страницу, тем важнее эта страница должна быть. Кроме того, «отданные голоса» отличаются по значимости в зависимости от того, «кто» голосует. Гугл подсчитывает важность оцениваемой страницы, исходя из «голосов», отданных за нее. При этом в процессе производства расчетов Гугл учитывает, насколько важен (весом) каждый из отданных «голосов».
Таким образом, ПэйджРанк Гугла — это его собственный способ определения важности оцениваемой страницы. Это весьма важно, потому что ПэйджРанк является одним из факторов, определяющих порядок вывода результатов поиска. Это не единственный фактор, который Гугл использует для оценки страниц, но один из важнейших.
Начиная с этого момента, мы будем использовать термин «ПэйджРанк» в сокращенной форме как «PR». Это название алгоритма оценки важности каждой страницы ресурса в отдельности. В случае с PageRank критерием выбрана - теоретическая посещаемость страницы.
В теории рассмотрим модель путешествия пользователя по сети путем перехода по ссылкам. Предполагается, что пользователь начинает просмотр сайтов с некоторой случайно выбранной страницы. Затем по ссылкам он переходит на другие ресурсы. При этом есть вероятность того, что посетитель покинет сайт и вновь начнет просмотр документов со случайной страницы (в алгоритме PageRank вероятность такого действия принята 0.15 на каждом шаге). Соответственно, с вероятностью 0.85 он продолжит путешествие, перейдя по одной из доступных на текущей странице ссылок (все ссылки при этом равноправны). Продолжая путешествие до бесконечности, он побывает на популярных страницах много раз, а на малоизвестных - меньше.
Таким образом, PageRank веб-страницы определяется как вероятность нахождения пользователя на данной веб-странице; при этом сумма вероятностей по всем веб-страницам сети равна единице, так как пользователь обязательно находится на какой-либо странице.
Поскольку оперировать вероятностями не всегда удобно, то после ряда преобразований с PageRank можно работать в виде конкретных чисел (как, например, мы привыкли видеть его в Google ToolBar, где каждая страница имеет PageRank от 0 до 10).
Согласно описанной выше модели получаем, что:
каждая страница в сети (даже если на нее нет внешних ссылок) изначально имеет ненулевой PageRank (хотя и очень маленький)
каждая страница, имеющая исходящие ссылки, передает часть своего PageRank страницам, на которые ссылается. При этом переданный PageRank обратно пропорционален числу ссылок на странице – чем больше ссылок, тем меньший PageRank передается по каждой;
PageRank передается не полностью, на каждом шаге происходит затухание (та самая вероятность 15%, когда пользователь начинает просмотр с новой, случайно выбранной, страницы).
Рассмотрим теперь, каким образом PageRank может влиять на ранжирование результатов поиска С влиянием PageRank все обстоит очень просто – после того как поисковая система нашла ряд релевантных документов (используя текстовые критерии), отсортировать их можно согласно PageRank – так как логично будет предположить, что документ, имеющий большее число качественных внешних ссылок, содержит наиболее ценную информацию.
PageRank не используется непосредственно в алгоритме Google. Это и понятно – ведь PageRank характеризует лишь количество и качество внешних ссылок на сайт, но совершенно не учитывает ссылочный текст и информационное содержимое ссылающихся страниц – а именно этим факторам придется максимальное значение при ранжировании. Предполагается, что для ранжирования Google использует так называемый тематический PageRank ( то есть учитывающий только ссылки с тематически связанных страниц), однако детали этого алгоритма известны лишь разработчикам Google.
Узнать значение PageRank для любой веб-страницы можно с помощью Google ToolBar, который показывает значение PageRank в диапазоне от 0 до 10. Следует учитывать, что Google ToolBar показывает не точное значение PageRank, а лишь диапазон PageRank, в который попадает сайт, причем номер диапазона (от 0 до 10) определяется по логарифмической шкале.
Поясним на примере: каждая страница имеет точное значение PageRank, известное только Google. Для определения нужного диапазона и вывода информации на ToolBar используется логарифмическая шкала
Реальное значение PR
Значение ToolBar
1-10
1
10-100
2
100-1000
3
1000-10000
4
И т. д. до 10
Сам Гугл не опубликовывает точных методов определения и предполагается, что расчет производится по логарифмической шкале, или на чем-то подобном, но уж никак не по линейным закономерностям.
Выше приведенные цифры достаточно условны, однако наглядно демонстрируют, что диапазоны PageRank, показываемые в Google ToolBar, не равнозначны друг другу. Например, поднять PageRank c 1 до 2 легко, а с 6 до 7 гораздо сложнее.
На практике PageRank используется в основном в двух целях:
Быстрая оценка уровня раскрученности сайта. PageRank не дает точной информации о ссылающихся страницах, но позволяет быстро и просто «прикинуть» уровень развития сайта. Для англоязычных сайтов можно придерживаться следующей градации: PR 4-5 – наиболее типичный PR для большинства сайтов средней раскрученности. PR 6 – очень хорошо раскрученный сайт. PR 7 – величина, практически недостижимая для обычного вебмастера, но иногда встречается. PR 8, 9, 10 – встречаются только у сайтов крупных компаний (Microsoft, Google и т.п.). Знание PageRank можно использовать при обмене ссылками, для того чтобы оценить качество предложенной к обмену страницы и в других подобных ситуациях.
Оценка уровня конкуренции по поисковому запросу. Хотя PageRank и не используется непосредственно в алгоритмах ранжирования, тем не менее позволяет косвенно оценить конкурентность заданного запроса. Например, если в выдаче поисковой системы стоят сайты с PageRank 6-7, то сайт с PageRank 4 имеет очень мало шансов подняться в топ.
Еще одно важное замечание – значения PageRank, показываемые в Google ToolBar пересчитываются достаточно редко (раз в несколько месяцев), поэтому ToolBar показывает в некотором роде устаревшую информацию. То есть сама поисковая система Google учитывает изменения во внешних ссылках гораздо быстрее, чем эти изменения отображаются в Google ToolBar.
позвольте мне пояснить более детально, почему цифры, появляющиеся на тулбаре Гугла, не являются реальными значениями ПэйджРанка. В соответствии с основной формулой, и по данным выступлений основателей Гугла, миллиарды страниц интернета имеют средний вес ПэйджРанка порядка 1.0 на страницу. Таким образом, общий ПэйджРанк интернета эквивалентен количеству страниц на вебе, умноженному на 1, что в масштабах всего интернета дает огромное количество ПэйджРанка, распределяемого внутри всего интернета.
Шкала на тулбаре Гугла градуирована от 1 до 10. (Иногда там можно увидеть и 0, но эта цифра не является результатом вычислений ПэйджРанка). Гугл поступает таким образом, что делит полное реальное значение всего ПэйджРанка всего интернета на 10 частей. При этом каждая часть отображается значением, указанным на тулбаре. Таким образом, значения на тулбаре указывают лишь на то, в каком диапазоне находится ПэйджРанк доставленной браузером страницы, а не выводит точного значения ПэйджРанка самого по себе. Цифры на тулбаре — всего лишь относительные отметки.
Эквивалентны ли эти 10 отрезков или нет — все это предмет для дискуссий; Гугл на эту тему не распространяется. Однако, поскольку из практики известно, что, чем в более высоком диапазоне находится выводимый показатель, тем все более трудно добиться его дальнейшего повышения, многие люди (включая и меня самого) полагают, что градуировка производится по логарифмической шкале, или на очень похожем принципе, но уж никак не на основе простой линейной закономерности.
Давайте предположим, что используется логарифмическая закономерность, базирующаяся на десятичной шкале, и что требуется 10 правильно организованных с точки зрения ссылочных структур, страниц, чтобы поднять важную страницу сайта на одно деление шкалы тулбара. Тогда для следующей подвижки потребуется уже 100 новых страниц, 1,000 новых страниц, чтобы пройти следующее деление, 10, 000 — для еще одной подвижки, и так далее. Вот почему передвижения внизу шкалы (левый край) даются гораздо легче, чем в центре, и, тем более, на правом краю шкалы.
На самом деле, навряд ли основание логарифма составляет ровно 10. Некоторые исследователи считают, что это 5 или 6, а, возможно, даже и менее. Но даже и в этом случае, чем выше поднимаешься по шкале — тем более затрудненным становится процесс перемещения.
Примем во внимание, что, по мере того как количество страниц в интернете постоянно возрастает, суммарный ПэйджРанк также растет. А, коль скоро растет суммарный ПэйджРанк, расположение позиций градуировки шкалы должно меняться. При этом некоторые страницы опускаются на указателе тулбара по «непонятным» причинам. Если актуальное значение ПэйджРанка страницы было чуть-чуть выше какого-то деления шкалы, то добавление новых страниц в пространстве интернета должно вызывать незначительное перемещение маркера деления вверх; при этом положение страницы должно незначительно сползать вниз по шкале, оказываясь немного под соответствующим делением. Индекс Гугла постоянно растет, и они переоценивают значимость каждой из страниц с периодичностью, близкой к ежемесячной. Этот процесс известен как «Танец Гугла». Когда танец заканчивается, некоторые страницы падают относительно соответствующей отметки тулбара. Поэтому, «вливание» в массив мирового интернета новых страниц — зачастую это все что нужно, чтобы откатиться на позицию назад после очередного «танца».
Конечно, цифра, выводимая на тулбар — это хороший индикатор ПэйджРанка страницы, но все, о чем она свидетельствует, так это о том, что ПэйджРанк данной страницы находится в определенном диапазоне по отношению ко всему пространству шкалы. Так, PR 5 может означать, что страница не дотягивает до реального значения в 5, а также — что страница имеет больше 5, но пока не дотягивает до 6.