Операторы google для парсинга

Операторы google для парсинга
Операторы google для парсинга

Всем привет! В предыдущей статье я выложил небольшую часть признаков популярных CMS , как вы заметили там встречается оператор “inurl:”, многие довольствуются только им, но существует еще несколько операторов, которые помогут собрать наиболее полную и качественную базу сайтов. Но обо всем по порядку.

Оператор “inurl:” позволяет собирать сайты по признакам, содержащимся в самом URL сайта. К примеру «index.php?do=register» на сайте ведет на форму регистрации как правило DLE сайта и если проверить выдачу гугла по этому запросу — вы найдете немало сайтов на этом движке. Это основной оператор, используемый для сбора баз.

Оператор ”intitle:” ищет определенную комбинацию слов в названии ресурса, а если быть точнее в исходном коде главной страницы между тегами <head></head>. Например intitle:»Регистрация пользователя». и мы найдем сайты, где будет в исходном коде <title>Регистрация  пользователя</title> и тд.

Оператор “intext:” ищет определенные слова в теле страницы. Самый распространенный вариант использования этого оператора —  intext:“powered by DataLife Engine” к примеру. Таким образом те, кто не снес копирайты окажутся в выдаче гугла.

В принципе вам вполне хватит для парсинга этих признаков, но не забывайте, что вручную уже никто ничего не собирает, тем более если вы погуляете по 3-10 страницам выдачи при использовании оператора скажем “inurl:” , то скорее всего вылезет капча от гугла и вам придется подтвердить что вы не робот. Поэтому для сбора баз необходимо иметь парсер с продуманным алгоритмом, умеющим работать через прокси/соксы и антикапчей.

Я при сборе баз использую как правило hrefer, webparser и парсер, встроенный в allsubmitter, но существует множество и бесплатных аналогов, которые работают не хуже, а иногда и лучше. В следующей статья я выложу признаки профилей форумов, думаю некоторым это будет полезно.

Всем хорошего дня!

Понравилась статья? Поделиться с друзьями:
Комментарии: 8
  1. Сергей Ковалев

    Тоже собираю базу но пользуюсь в основном оператором inurl

  2. Виктор

    Отличная статья.Спасибо за полезную информацию.

  3. Новый SEO

    Большое спасибо, пригодилось, сохранил себе страницу)

  4. alex

    пригодилось, спасибо, но буквально на днях прочитал про них)) совпадение…

  5. Женя

    Так это как, просто в в строку поиска вписываешь, к примеру, index.php?do=register и нажимаешь поиск и все? Эти признаки и есть запросы?

    1. admin (автор)

      В принципе если нет хорошей базы шустрых прокси в парсилке, то можно вообще забить на операторы и искать тупо по признакам.
      Да

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: