СТАРЕНЬКАЯ ИНТЕРЕСНАЯ СТАТЬЯ О ТОМ КАК С ПОМОЩЬЮ ХРЕФЕРА И ПХП НАХОДИТЬ СЕТКИ ДОРВЕЕВ ПОД ТРАМАДОЛ В ГУГЛЕ…

ЗДАРРРРРРРРРРРРРРРРРРРРРРРРОВА;)
НАЛОВИЛ РЫБЫ В ИНТЕРНЕТЕ:)
СТАРЕНЬКАЯ ИНТЕРЕСНАЯ СТАТЬЯ О ТОМ КАК С ПОМОЩЬЮ ХРЕФЕРА И ПХП НАХОДИТЬ СЕТКИ ДОРВЕЕВ ПОД ТРАМАДОЛ В ГУГЛЕ…

ВСТУПЛЕНИЕ
В данной статье будет описан анализ одной из топовых сеток по трамадолу, представлен способ её перелинковки и метод мониторинга её развития.
Автор надеется, что данная информация окажется полезной широкому кругу читателей, особенно тем, кто уже имеет опыт продвижения своих ресурсов сетями.

При анализе сети использовались программы, разработанные компанией Botmaster Labs : Xrumer, Hrefer, инструменты, поставляемые в их составе (Анализатор баз ссылок, Фильтр баз ссылок, Удаление повторных ссылок), а так же скрипты PHP, написанные специально под данные задачи.

ИССЛЕДУЕМАЯ СЕТЬ

По запросу в Google «buy tramadol online» первое место занимает дорвей www.nationsgirl.com :
http://www.google.com/search?q=buy+tramadol+online

Привлёк внимание автора данный дорвей тем, что он:
1) одностраничный
2) в беклинках у него всего 17 сайтов
3) дор вышел в топ1 без спама
4) дор появился в выдаче 5 декабря 2010 сразу же на 1ом месте по очень конкурентному запросу и держится на них до сегодняшнего дня.

В результате этого, было решено постараться детально проанализировать всю сеть и восстановить схему перелинковки всей сети.

Сначала нам необходимо решить вопрос по сбору всех дорвеев, входящих в указанную сеть. Ведь нет смысла анализировать способ перелинковки, не имея полного списка её ресурсов.

Были выделены особенности любого дорвея:
1) никаких внутренних ссылок (все сайты одностраничные)
2) всегда ровно одна внешняя ссылка на более «мощный» сайт (такими сайтами является википедия и drugs.com). Обратите внимание, что эта внешняя ссылка открыта к индексации
3) всегда от 0 до 7 ссылок на доры в сетке

Таким образом, было решено собрать все ссылки со всех дорвеев, удалить упоминания wikipedia, drugs.com и т.д. и получить в результате список сайтов сети для последующего анализа перелинковки.

I. СБОР БАЗЫ ВСЕХ ДОРОВ СЕТИ

Этап 1.
Пишем небольшой скрипт, вытягивающий все ссылки с дорвея и отфильтровывающий ненужные (ссылки на указанные скрипты размещены в начале статьи). Подаём ему на вход наш дорвей с друзьями по сетке. Получаем базу «сайтов-соседей». Фильтруем на дубли полученный список встроенным инструметом Хрумера. То, что получилось, подаём опять на вход скрипта, опять фильтруем дубли. Процесс повторяем, пока новых сайтов не перестанет добавляться на выходе скрипта.

Этап 2.
Теперь предполагаем, что, возможно, кто-то ещё остался за бортом. Т.е. кто-то ссылается на один из полученных нами сайтов, но на него никто. А это ведь может быть целая группа дорвеев, и её роль в сети может быть важна.
Значит, нужно проверить все беклинки всех вытащенных нами доров.

Открываем Hrefer. Подготавливаем ему такое задание:

link:www.nationsgirl.com
link:www.nyulawlibertarian.com
link:www.publicicletas.com
link:www.journeytomalia.com
link:www.sjgaypride.com
link:www.militarymissionsonline.com

Можно Hrefer заставить прибавлять к запросу 2-3 дополнительных слова типа «tramadol», «buy tramadol» и т.д.
Из полученной базы беклинков удаляем Хрумером все дубли, запускаем Анализатор базы ссылок и все беки проверяем на вхождение уникального для наших доров контента.
Тут нужно сказать, что доры этой сетки почти полностью динамичны (шаблон всегда разный, даже css!) и получить 100% признака не представляется возможным.
Поэтому фильтрацию проводим в 2 последовательных захода по надписи внизу страницы «Copyright (c) 2008» и части ссылки на редирект «/rx».
Например, в линках http://www.nationsgirl.com/rx/2pharmacycenterusa.php название домена и скрипта всегда меняется, а папка /rx всегда одинакова.

На выходе получаем новые сайты в нашу базу (очень много!). Для полученной базы опять повторяем Этап 1 и Этап2, до тех пор, пока в нашей базе не перестанет прибавляться новых дорвеев.

Этап 3.
Хорошо, теперь мы получили базу всех перелинкованных между собой доров. Но что, если существует часть или группа ещё не перелинкованных? А вдруг есть ещё такая же похожая замкнутая система-сеть, на которую нет выхода из нами обнаруженной сети? Мы-то их не нашли. Но что же делать?
А делать вот что. Мы предполагаем, что все эти доры (а их у нас накопилось к этому времени уже около 200 штук) продвигаются одними и теми же ресурсами: блогами, социальными сетями и т.д. Поэтому велика вероятность того, что на каком-то блоге есть сразу две ссылки на доры в разных сетях.

Получается, нам надо взять нашу последнюю актуальную базу беклинков на все наши доры, подать на вход скрипту сбора ссылок уже не сами доры, а их беклинки. И полученную базу (очень большую) правильно отфильтровать:
1) на дубли Хрумером
2) на вид ссылки (наши доры одностраничны, поэтому нас интересуют только ссылки на морду, не нужны вида http://site.com/dir/dir/file.html и т.д.)

Запускаем Анализатор баз ссылок Хрумера и за несколько проходов отсеиваем по признакам, указанным в Этапе 2.
Получаем колоссальный прирост доров в сетке! При этом мы вытягиваем даже такие, которые не ссылаются ни на один из доров: ни сами, ни на них.

Внимание! Это очень важный момент. Сетка может не быть статичной. Автор может развивать её, перелинковывая постепенно. Таким образом, получив ещё и одиночные доры, мы сможем анализировать, как происходит сама перелинковка поэтапно!

Полученную базу прогоняем опять по Этапам 1-3 до того момента, пока доров в нашей базе перестанет прибавляться.

На весь этот процесс у нас ушло 3 дня активной работы.

Ура! Мы вытащили 90% (минимум) всей сетки. Теперь можно перейти к анализу линковки.

II. АНАЛИЗ ЛИНКОВКИ

Итак. На данном этапе у нас есть 490 доров, входящих в сеть.

Этап 4.

Пишем скрипт, который присваивает каждому дору числовой индекс, затем заходит на каждый из сайтов и показывает линковку в удобном формате без доменных имён.

Результат работы примерно такой:

(0)http://www.nationsgirl.com
[0=>1]
[0=>8]
[0=>2]
(1)http://www.nyulawlibertarian.com
(2)http://www.publicicletas.com
(3)http://www.journeytomalia.com
(4)http://www.sjgaypride.com
[4=>1]
[4=>7]
[4=>6]
[4=>5]
[4=>15]
[4=>8]
(5)http://www.militarymissionsonline.com
[5=>1]
[5=>2]
[5=>8]
(6)http://www.anti-knowledge.com
(7)http://www.trivaniteam.com
[7=>8]
[7=>2]
[7=>1]

Если скрипт находит неизвестную ранее нам ссылку, он её выведет с доменом:

(30)http://www.sistersnetworkcincy.org
[30=>268]
[30=>269]
[30=><font color=red>www.bestnascarracing.com</font>]
[30=>270]

Внимание! Сохраняя этот лог, допустим, раз в неделю по понедельникам, мы сможем отслеживать, как развивается и живёт сетка: как она перелинковывается, постепенно или нет, появляются ли линки на сайты не из сетки и т.д.

Этап 5 — СОСТАВЛЕНИЕ ГРАФА СЕТИ И ПОИСК ЛОГИКИ

Как же нам теперь представить все эти данные в понятном виде? Ведь нам же надо найти логику в перелинковке, определить схему и т.д.

Когда доров было около двух десятков, то ещё можно попытаться нарисовать что-то на листочке, но когда их становится 5 сотен…

Поэтому был найден хороший бесплатный инструмент для работы с графами — yEd Graph Editor (скачать тут: http://www.yworks.com/en/downloads.html)
Он позволяет создавать красивые графы, устанавливать связи, шевелить узлы и т.д.

Для начала добавляем все узлы и устанавливаем связи между ними. Перемещая узлы, пытаемся найти похожие, объединить их в группы. Стараемся добиться симметричности\логики.
Я рекомендую использовать возможности цветового выделения узлов, групп и связей.

Ниже вы можете видеть, что у меня получилось после некоторых манимуляций.
Если вы найдёте разницу в линковке для двух узлов в одной группе, то не обращайте внимания: просто каждый узел и связь рисовалась вручную.

Как видите, это не очень информативно при таком количестве узлов. Поэтому похожие узлы сворачиваем в группах, а в заголовке пишем число узлов в группе.

Этап 6 — АНАЛИЗ СЕТИ И ВЫВОДЫ

Давайте теперь пойдём в лоб. Знаю, что так делать, возможно, нельзя, но для того, чтобы прикинуть примерно распределение весов по сети, возьмём идеализированный метод оценки.
Предположим, что вообще изначально у каждого сайта в сети есть определённый вес, равный единице. Т.е. это такие очки в кармане, который дор может подарить другим, но не себе.
При этом важно, что если дор дарит часть своего веса другому дору (ссылается на него), то у самого него веса меньше не становится.
Но та единица, которая есть у сайта изначально, делится между всеми дорами, на которые он ссылается.
Например, у сайта А есть вес 1. Он ссылается на B и на С. Тогда у А вес 1, а у B и С вес суммируется со своей единицей (т.е. у каждого из них будет вес 1,50). Соответственно B и C уже имеют 1,50 балла для распределения между теми, на кого они ссылаются. При этом, ссылаясь, они свои 1,50 балла не расходуют.

Таким образом мы изучим все узлы и группы графа (отдельно доры в группе не исследуем).
При этом:
для узла
— изначальный вес узла равен 1
— передаваемый ссылке вес = вес узла\количество ссылок
для группы
— вес группы равен 1*количество доров в группе
— передаваемый ссылке вес = вес группы\количество ссылок

Просчитываем ручками веса по вышеописанной схеме:

На PR прошу не обращать внимания, т.к., как было выяснено позже, хозяин сетки покупал домены уже с pr.

Первое, что бросилось в глаза — почти вся сеть, кроме одной группы, симметрична. У каждого узла есть своя пара.
Только лишь одна группа (справа из трёх узлов) не имеет пары. Автору кажется, что это сделано намерянно. Возможно, поисковики могут вычислять симметрию сетей по передаче веса от каждого сайта к сайту.
Обратите внимание, что, если бы не было этой группы, то сеть была бы симметрична по весам.

Важно: Ни одной обратной ссылки!

Важно: Ни одного кольца в схеме!

А вот задел на будущее следующей сетки, которая ещё пока не разрослась.

Как отслеживать изменения в росте сети описано выше.

Так же нужно отметить, что имеет значение распределение по количеству дорвеев в группах. Т.е, если делать свою сетку, то нужно стремиться соблюдать относительные пропорции.

Вот такой получился анализ сети. Спасибо за внимание.

UPD1: на момент публикации редиректа на дорах не было. Имейте в виду, что хозяин сети может вносить на свои доры изменения, и ряд моментов статьи могут становиться неактуальными.

UPD2: Небольшой апдейт по трамадольной сетке.

Была найдена другая сеть этого же автора, с тем же типом перелинковки, только по нише «xanax».
http://www.google.com/search?hl=en&safe=off&q=buy+xanax+without+rx&oq=buy+xanax+without+rx
Примеры доров:
http://www.alprazolamonlinesales.com/
http://www.bulls5k.com/
http://www.wantedhits.com/
и т.д.
В этот раз в линковке автор использует около 5 разных шаблонов.
Сетка пока ещё на первой стадии развития, поэтому у доменов ещё не убран «This site may be compromised».
http://tramanets.blogspot.ru/2011/06/blog-post_26.html#comment-form
;)

ИНТЕРЕСНЫЕ СТАТЬИ САЙТА EZOLIFE.INFO