четвер, 1 квітня 2010 16:02
Деякі технічні алгоритми Google
Ми проводимо багато часу в спробах зрозуміти, як саме функціонують алгоритми індексування Google. У цій статті я зроблю огляд деяких технологій, використовуваних даною пошуковою системою .
Визначення спаму
Яким би не був сайт, дуже часто, ви одержите певну кількість спамерских (чорних) беклінків. Проти цього немає методів боротьби, тому що зараз це відбувається на природньому рівні. Також, будьте уважні в моменти ссилания на інші ресурси, в «Гугла» є алгоритм, який можна назвати «спамерською мережею». Він аналізує вхідні й вихідні лінки й робить висновки, направляючи спамерські сайти в бан, або ж понижуючи їх в результатах пошук. констатує, що одне природнє посилання рівне 40-60 чорним. Тобто, ефект від посиланнь 60 заспамленних каталогів і 1 лінку з гарного, трастового сайту буде приблизно однаковим. Цифри, звичайно, орієнтовні, але перевірені не однією людиною. Висновок: для білих проектів вам не потрібні лінки з низькоякісних каталогів та інших підозрілих ресурсів, також не ставте посилання на такі ресурси з сайту що ви просуваєте.
Приховане семантичне індексування LSI
Ця технологія являє собою науку обробки лінгвістичної інформації. Звучить за-розумно. Насправді система аналізує зв'язок між словами й відсіває набитий ключовиками текст, залишаючи тільки природній контент. LSI, також, розрізняє синонімізований зв'язок слів. Наприклад, якщо дивитися статтю про аероплан, то LSI почне шукати синоніми: літак, авіабудування. Будуть враховані й просто схожі по тематичному змісту слова, наприклад: турбулентність, паливо, хмари й небо. Зміст LSI полягає у виявленні дійсно корисного контенту й відсіванні автоматично згенерованого тексту, який використовується для маніпуляції результатами видачі. Гугл купив компанію , яка створила поліпшену версію технології LSI. Їхня розробка була інтегрована в Adsense і пошукові алгоритми. Висновок: Як вебмастер, пишіть природно і забудьте про устояні мірки типу щільності ключових слів. Додавайте синоніми й схожі за змістом фрази в анкори.
Тематичний рівень
Пошукова система направляє в топ видачі сайти, використовуючи й інші алгоритмічні показники: Trust Rank і Pagerank. Їхні значення базуються на повазі до Вашого ресурсу серед аналогів. А воно, як відомо, складається зі зворотних посилань. Якщо на Вас посилаються з авторитетних доменів, але це не позначається на результатах видачі, необхідно дістати посилання з декількох сайтів, які ТЕМАТИЧНО твердо встоялися по цьому алгоритму. Тобто, якщо є проект про Audi, то посилання із старого сайту про авто буде дуже корисним. Інакше кажучи, вам потрібні лінки з топових сайтів тематичної категорії. А кращими сайтами, як правило, виявляються не трафік-гіганти, а колишні проекти, які стабільно тримаються на середньому плаву, і фінансово це вигідніше. ВИСНОВОК
Сприйнятливий тематичний Trustrank
Щоб розуміти роботу цієї системи, потрібно ознайомитися зі споконвічним поняттям Trust Rank. Співробітники Google аналізують і визначають «важливі сторінки». Такі ресурси, назвемо їх жирними, як правило, містять багато якісного контенту, унікальний дизайн, поважний вік домену(незавжди) і незалежні авторитетні посилання на інші сайти. Саме такі лінки й передають Trust Rank. Приклад сайту, який може це робити в українському інтернеті: korrespondent.net. Новинний ресурс, який згадує інші сайти ненавмисно, природньо. Технічно, жирна сторінка X посилається на сторінки A, B і C, тим самим передаючи їм певну кількість трасту. А сторінки A, B і C так само зможуть передавати цей показник, але, відповідно, у меншій кількості. Чим далі сторінка від X, тем менше довіри вона одержує. TSTR працює по тому ж принципу, але використовує тематичний ухил. DMOZ, Yahoo Directory, ЯК і подібні авторитетні директорії можуть значно допомогти.
Сприйнятливий тематичний Pageranktspr
Даний алгоритм структурує сторінки, виходячи з тематичного взаємозв'язку.
Визначальні фактори:
- Людський аналіз
- історія пошуку
- наявність у певній категорії DMOZ
При відповідності сайту його категорії в Open Directory Project, TSPR може підняти ресурс у видачі. Варто помітити, що в Google іде серйозна робота з боротьби з корисливими редакторами каталогу DMOZ. Сайти, які звідти викидають, одержують, у більшості випадків, смертельну песимізацію. Намагайтеся одержати лінк із DMOZ природньо. Якщо ніяк не можете потрапити в каталог, займіться пошуком жадібних розуміючих редакторів, які допоможуть за пару десятків доларів . У буржуйнеті це роблять мінімум за пару сотень.
Додатковий індекс (пісочниця)
У цю пісочницю попадають сайти, які позбавлені довіри Google. Сайти з доп. індексу звичайно не проглядаються павуком детально. Результати видачі видні тільки при недостатній кількості документів в основному індексі. Існують кілька способів потрапити в пісочницю:
- Багато зворотних посилань низької якості
- Велика кількість низькоякісних вихідних посилань
- Неунікальний контент
- Сторінки мають маленьке загальне значення Pagerank
- Новий ресурс, з нульовими показниками без беклінків.
Немає конкретного способу, щоб довідатися в якому індексі перебуває ваш ресурс. Якщо сайт новий, пошукова система стандартно помістить його в додатковий індекс до тієї пори, поки він не стане зрілим і не обзаведеться авторитетними зворотними посиланнями. Переконаєтеся, що на сайті немає битих лінків і помилок 404,часто це служить причиною переміщення в пісочницю.
Аналізатор сайтів і посилань
В 2005 році корпорація Google запатентувала наступні фактори, що впливають на ранжування результатів пошуку:
- Строк реєстрації домена
- Зміна власників домена
- Дані WHOIS і інформація про фізичну адресу власника
- IP інформація
- Наявність ключових слів/фраз у домені
- Строк роботи сайту
- Частота поновлення сторінок
- Кількість внутрішніх сторінок
- Текст анкорів
- Строк знаходження посилань на певних позиціях
- Частота зміни й видалення посилань
- Нарощування ваги зовнішніх посилань
- Авторитетність зовнішніх посилань
- Якість лінків. Загальний показник по сайту
- Поширення посилань. Кількість і якість ресурсів, на які вони спрямовані
- Різноманітність анкорів
Це основні характеристики, повний офіційний список на англійській можна подивитися . Звичайно, зараз не 2005 рік, але із цієї інформації можна багато чого намотати на вус. Велика кількість зворотніх посилань може негативно змінити відношення до сайту. Якщо Гугл не бачить природніх лінків на ваш проект, а лише спам лінки, то можливість вильоту з індексу або «штрафу» значно збільшується. Це ж правило діє й у зворотному порядку. Пошукова система використовує спеціальний алгоритм для визначення категорії зворотніх лінків: спамо або натуральні. Каталоги сайтів – це вже близько до спаму, наприклад, особливо якщо Ваш сайт є лише в неякісних каталогаг.
Схожі записи
- Рубрика: SEO
- прокоментуй!