SEO блог
Facebook SEO блог о поисковой оптимизации и продвижении сайтов Twitter SEO блог о поисковой оптимизации и продвижении сайтов RSS
SEO блог о поисковой оптимизации и продвижении сайтов
SEO блог о поисковой оптимизации и продвижении сайтов
SEO блог о поисковой оптимизации и продвижении сайтов
Операторы google для парсинга

Операторы google для парсинга

Всем привет! В предыдущей статье я выложил небольшую часть признаков популярных CMS , как вы заметили там встречается оператор “inurl:”, многие довольствуются только им, но существует еще несколько операторов, которые помогут собрать наиболее полную и качественную базу сайтов. Но обо всем по порядку.

Оператор “inurl:” позволяет собирать сайты по признакам, содержащимся в самом URL сайта. К примеру “index.php?do=register” на сайте ведет на форму регистрации как правило DLE сайта и если проверить выдачу гугла по этому запросу – вы найдете немало сайтов на этом движке. Это основной оператор, используемый для сбора баз.

Оператор ”intitle:” ищет определенную комбинацию слов в названии ресурса, а если быть точнее в исходном коде главной страницы между тегами <head></head>. Например intitle:»Регистрация пользователя». и мы найдем сайты, где будет в исходном коде <title>Регистрация  пользователя</title> и тд.

Оператор “intext:” ищет определенные слова в теле страницы. Самый распространенный вариант использования этого оператора –  intext:“powered by DataLife Engine” к примеру. Таким образом те, кто не снес копирайты окажутся в выдаче гугла.

В принципе вам вполне хватит для парсинга этих признаков, но не забывайте, что вручную уже никто ничего не собирает, тем более если вы погуляете по 3-10 страницам выдачи при использовании оператора скажем “inurl:” , то скорее всего вылезет капча от гугла и вам придется подтвердить что вы не робот. Поэтому для сбора баз необходимо иметь парсер с продуманным алгоритмом, умеющим работать через прокси/соксы и антикапчей.

Я при сборе баз использую как правило hrefer, webparser и парсер, встроенный в allsubmitter, но существует множество и бесплатных аналогов, которые работают не хуже, а иногда и лучше. В следующей статья я выложу признаки профилей форумов, думаю некоторым это будет полезно.

Всем хорошего дня!


SEO блог о поисковой оптимизации и продвижении сайтов
15th Дек 2011
Теги:
SEO блог о поисковой оптимизации и продвижении сайтов

Есть 8 коммент. к “Операторы google для парсинга”

  1. Роман пишет:

    Спасибо!Много нового узнал.Век живи-век учись)))

  2. HOOPS пишет:

    Исследовать url и ешеду страницы полезно при поиске блогов с возможностью комментирования, вики-сайтов для написания контента.

    И еще: у Вас на блоге очень “удобная” капча.

  3. Сергей Ковалев пишет:

    Тоже собираю базу но пользуюсь в основном оператором inurl

  4. Виктор пишет:

    Отличная статья.Спасибо за полезную информацию.

  5. Новый SEO пишет:

    Большое спасибо, пригодилось, сохранил себе страницу)

  6. alex пишет:

    пригодилось, спасибо, но буквально на днях прочитал про них)) совпадение…

  7. Женя пишет:

    Так это как, просто в в строку поиска вписываешь, к примеру, index.php?do=register и нажимаешь поиск и все? Эти признаки и есть запросы?

    • admin пишет:

      В принципе если нет хорошей базы шустрых прокси в парсилке, то можно вообще забить на операторы и искать тупо по признакам.
      Да

SEO блог о поисковой оптимизации и продвижении сайтов
 

SEO блог о поисковой оптимизации и продвижении сайтов
Все права защищены © 2011 SEO блог

Пользовательское соглашение и политика конфиденциальности
SEO блог о поисковой оптимизации и продвижении сайтов