Главная  /  Блог  /  Web  /  
  • Эволюция веб-спама (на примере Яндекса)

    /  Июля 3, 2014   /   Web,  Продвижение   /  
    ||||| Like It 4 |||||

    Одной из насущных проблем, с которой приходится бороться поисковым системам, является большое количество веб-спама. Именно он негативно влияет на качество поиска и, как следствие, своевременное получение информации пользователем. Кроме того, веб-спам заставляет поисковые системы растрачивать ресурсы на дополнительный анализ содержимого страниц, индексацию и ранжирование.

    В последние годы значение поискового трафика для тех, кто занимается продажами и предоставлением услуг онлайн, существенно возросло, за место в топе выдачи постоянно идёт борьба, что, безусловно, мотивирует спам-специалистов разрабатывать новые техники веб-спама.

    Таким образом, веб-спам постоянно эволюционирует, определять его становится всё труднее. Однако профильные специалисты не сдают позиций и совершенствуют технологии выявления спама. Далее мы рассмотрим различные вид веб-спама, остановимся на агрессивной рекламе и мошенничестве в сети и многом другом.

     

    Основные виды веб-спама

    Вследствие того, что одним из важнейших источников информации для ранжирования страниц является их текстовое наполнение, наиболее распространённым видом веб-спама является контентный. В этом случае основной задачей спаммеров становится воздействие на факторы TF/IDF или BM25 (функции ранжирования, которые используются поисковыми системами при упорядочивании документов по релевантности, основываясь на том или ином поисковом запросе). Своей цели они достигают путём создания текстов, чаще всего лишённых какого-либо смысла и представляющих собой набор фраз, с использованием ключевых слов в оптимальной плотности.

    Чтобы определить этот вид спама, специалисты применяют методы, которые основаны на языковых моделях.

    Веб-спам может иметь ссылочную природу. После начала использования поисковыми системами ссылочных сигналов (например, таких, как PageRank), спаммеры пустили в ход инструменты, воздействие которых основано на линк-фарм (специально созданный интернет-ресурс, который используется не для распространения информации, а для увеличения индекса цитирования другого сайта за счёт размещения ссылок на него).

    Ещё один вид веб-спама основан на использовании поведенческих характеристик пользователей. Его суть сводится к накрутке поведенческих показателей сайта за счёт сервисов активной рекламы и других.

    Как показывает практика, спаммеры используют все эти виды веб-спама для достижения цели − получения лучших позиций в выдаче. Они постоянно совершенствуют техники и находят новые способы потеснить сайты в поисковом топе. При этом следует отметить, что задачей спаммеров может быть не только монетизация трафика, но и проворачивание афер с пользователями.

    Именно поэтому борьба с веб-спамом обусловлена не только техническими, но и социальными факторами.

     

    Как устроен антиспам?

    Всемирная сеть содержит огромное количество страниц, поэтому поисковые системы должны постоянно повышать скорость обработки существующих документов. Для примера, количество хранящихся в Яндексе документов составляет около 20 млрд., ежедневно осуществляется индексация более 3 млрд. из них. Некоторые документы обрабатываются посредством Яваскрипт-интерпретатора. Специалистами Яндекса разработан и внедрён особый язык, который используется для создания классификаторов и основан на употреблении регулярных стандартных выражений. Скорость работы этого инструмента составляет 200 тысяч документов в секунду. Наиболее точные и полные классификаторы были разработаны именно благодаря этой технологии.

    Обучение алгоритмов осуществляется как за счёт данных профессиональных асессоров, так и путём получения обратной связи, поступающей в техподдержку. Благодаря этому информация о появлении новых техник веб-спама и прочих махинациях в сети постоянно обновляется и изучается.

     

    Основные формы веб-спама

    Основной задачей, которую призван выполнять веб-спам, является привлечение посетителей на сайты посредством поисковых систем. Способы роста посещаемости разнообразны. Для реализации поставленной цели спаммеры учитывают следующее:

    • • частоту запросов;
    • • уровень конкуренции;
    • • ранжирующую функцию для запросов определённого типа и т. д.

    Веб-спам как явление тесно связан с поисковой оптимизацией (SEO). Следует отметить, что в данный момент используются как законные практики поисковой оптимизации (белое SEO), так и агрессивные (чёрное или серое SEO).

    Законные практики основаны на анализе сайта с целью устранения его некорректной индексации и решения ряда других технических проблем в работе ресурса. Продвижение сайта осуществляется за счёт размещения на нём корректного контента, доменов, ссылок и особенностей поведения пользователей.

    В случае чёрной и серой оптимизации обходными путями пытаются достичь попадания в топ выдачи.

     

    Манипуляции с контентом

    Законная оптимизация текста на сайте основывается на введении в него определённого набора ключевых слов и фраз с определённой частотой и местоположением. Эффективность этого способа определяется опытным экспериментальным путём.

    При агрессивной текстовой оптимизации излишне частое употребление ключевых слов приводит к потере качества текста и его информативности для пользователей. Именно поэтому вопросы адекватности контента должны подвергаться контролю со стороны поисковых систем.

     

    Домены

    Для продвижения сайта достаточно часто используется такой способ, как выбор доменного имени, где содержится поисковый запрос − полностью или частично. В этом случае пользователю будет достаточно сложно различить сайты, которые попали в выдачу. Чтобы пресечь такой вид веб-спама, поисковой системой Яндекс был внедрён специальный антиспам-алгоритм, который фильтрует доменные имена. Этот инструмент начал работать в апреле 2011 года.

     

    Ссылки

    Одним из наиболее популярных методов веб-спама на территории Российской Федерации является приобретение ссылок на профильных биржах. Активной реакции со стороны поисковых систем на такие процессы пока не последовало, поэтому покупка ссылок становится всё популярнее. На протяжении довольно длительного периода времени для продвижения сайта активно использовалась покупка ссылок, поэтому технология смогла получить широкое распространение. В итоге такой способ стал одним из проявлений веб-спама, что обусловливает необходимость реакции на эти процессы со стороны поисковых систем.

    Для борьбы с этим видом спама специалистами Яндекса был разработан специальный алгоритм, суть которого заключается в совмещении разбивки на категории анкорных текстов и анализа ссылочного графа с целью выявления платных ссылок.

    С помощью классификатора платных ссылок можно рассчитать показатель ссылочной релевантности для запросов разного характера − коммерческих и некоммерческих. Вследствие этого удаётся достичь улучшения ранжирования, снижения уровня влияния специалистов по продвижению сайтов на некоммерческие запросы и разнообразить результаты выдачи. Следует отметить, что платные ссылки хорошо поддаются классификации, за счёт чего осуществляется эффективная борьба со спамом, связанным с воздействием на коммерческие запросы.

    Ещё в середине 2007 года поисковые системы пребывали под активным воздействием SEO, поэтому покупка ссылок была эффективным методом продвижения интернет-ресурсов в топ. Это привело к тому, что некоммерческие поисковые запросы были попросту заспамлены с помощью поисковой оптимизации. Со временем ситуация изменилась: алгоритмы были улучшены, продвижение сайтов путём покупки ссылок стало более сложным, а разнообразие выдачи увеличилось.

     

    Поведенческие факторы

    Спаммеры активно манипулируют поведением пользователей в сети, поскольку последние являются отличным источником сигналов ранжирования. Как именно рассчитываются и работают клики, спаммеры точно не знают, однако прекрасно понимают, что кликабельность играет не последнюю роль в продвижении сайта в топ.

    Один из наиболее распространённых способов раскрутки сайта − найти его в сети и начать кликать. После этого создаётся сообщество, члены которого получают небольшую плату за совершение определённых действий на сайте (в соответствии с инструкциями заказчика).

    Рост такого веб-спама активизировался после того, как спаммеры начали прибегать к помощи ботнетов − компьютерных сетей, которые состоят из определённого количества хостов, с активированными ботами (анонимное программное обеспечение).

    Накрутка кликов на определённых страницах оказывает неблагоприятное воздействие на экосистему Всемирной сети в целом. Именно поэтому вопрос ускорения реакции на подобные проявления веб-спама является очень актуальным. С целью предотвращения чёрного продвижения за счёт покупки ссылок на сайты, которые попали в топ выдачи таким образом, накладываются аресты.

    Подводя итоги рассмотрения видов веб-спама, отметим, что способов атаки достаточно много и поисковые системы должны постоянно контролировать ситуацию, увеличивать скорость реакции на действия спаммеров.

    Специалистами Яндекса были разработаны эффективные механизмы для минимизации негативного влияния спам-атак, постоянно исследуются новые векторы их воздействия.

    Процесс усложняется тем, что спаммеры достаточно часто используют те зоны, которые раньше практически не анализировались поисковыми роботами. Кроме того, ими постоянно разрабатываются новые инструменты и техники веб-спама для противостояния поисковым системам.

     

    Агрессивная реклама

    Одной из наиболее показательных характеристик поисковой машины, которая непосредственно влияет на её популярность, является качество поиска. Оценка уровня поисковых систем осуществляется с помощью различных методов (например, автоматический анализ или ручная оценка транзакционных запросов).

    Абсолютно идентичные текстовые данные, файлы или программное обеспечение можно найти на различных интернет-ресурсах. Существует большое количество релевантных страниц, однако не все они одинаково ценны для конкретного пользователя. Например, сайт какого-либо развлекательного центра может наполняться качественным контентом и небольшим количеством рекламы. Гонка за распространением информации о своём заведении и покупка дорогой рекламы может сделать пребывание посетителей сайта на вашем ресурсе некомфортным и снизить конверсию. Для определения влияния рекламы на уровень удобства пребывания пользователей на сайте специалистами Яндекса используется «время dwell» − особая характеристика, которая позволяет определить степень удовлетворения пользователя на странице.

    Как свидетельствуют данные проведённых специалистами исследований, чрезмерное количество рекламы на сайте отрицательно сказывается на восприятии ресурса пользователями, может вызывать жалобы и нарекания. Средний показатель времени dwell для сайтов со слишком активной рекламой примерно в 1,7 раза ниже, чем для ресурсов с адекватным её использованием.

    Особые инструменты и алгоритмы Яндекса позволяют пресекать появление в топе оптимизированных сайтов с агрессивной рекламой, хотя многие спаммеры совершают попытки спрятать её с помощью HTML и других трюков. Кроме того, есть методы борьбы с динамической агрессивной рекламой, что снижает эффективность баннеров. Вероятно, чтобы вернуть себе позиции спаммеры будут использовать вредоносный код.

     

    Обманчивый веб-спам

    Одним из наиболее значимых открытий, которое повлияло на развитие серой экономики в сети, стало появление сервисов микроплатежей. Например, страницы, где есть платная мобильная подписка − наиболее эффективный способ получить доход с помощью чёрной SEO-оптимизации. Для этого создаются совершенно непрозрачные схемы, по которым невозможно понять, кто будет проплачивать счёт − мобильный оператор, его партнёры или партнёры партнёров.

    Как правило, трафик уходит на сомнительные формы подписки, где нет возможности ознакомиться с условиями соглашения или понять их. Наряду с этим применяются различные инструменты, действие которых направленно на увеличение числа и коэффициента подписок. Поскольку пользователи в большинстве случаев доверяют проверенным и широко известным популярным сайтам, спаммеры с помощью яваскрипт-кода создают фейковые сообщения, которые как будто пришли из распространённых соцсетей или других компетентных ресурсов.

    Нажав на это сообщение, пользователь, естественно, попадает совсем не туда, куда ожидал, а на подписную форму, содержащую информацию о лотерее, выигрыше.

    Ещё один вид обмана − получение возможности изменить настройки пользователя, каким-либо образом преобразовать файлы для перенаправления популярных сайтов на другие IP.

     

    Дальнейшая эволюция

    С течением времени техники веб-спама становятся всё более сложными и изощрёнными. Вследствие этого поисковым системам необходимо увеличивать скорость реакции на атаки извне. Наиболее широко используемым сценарным языком программирования является JavaScript, поэтому новые системы определения спама должны создаваться с учётом его положений.

     

    Специалисты Яндекса продолжают разработки в области противостояния веб-спаму с целью снижения его негативного влияния на поисковую выдачу и экосистему интернета в целом.

    Более подробную информацию Вы можете получить у наших специалистов в разделе Контакты