Операторы google для парсинга

Операторы google для парсинга
Операторы google для парсинга

Всем привет! В предыдущей статье я выложил небольшую часть признаков популярных CMS , как вы заметили там встречается оператор “inurl:”, многие довольствуются только им, но существует еще несколько операторов, которые помогут собрать наиболее полную и качественную базу сайтов. Но обо всем по порядку.

Оператор “inurl:” позволяет собирать сайты по признакам, содержащимся в самом URL сайта. К примеру «index.php?do=register» на сайте ведет на форму регистрации как правило DLE сайта и если проверить выдачу гугла по этому запросу — вы найдете немало сайтов на этом движке. Это основной оператор, используемый для сбора баз.

Оператор ”intitle:” ищет определенную комбинацию слов в названии ресурса, а если быть точнее в исходном коде главной страницы между тегами <head></head>. Например intitle:»Регистрация пользователя». и мы найдем сайты, где будет в исходном коде <title>Регистрация  пользователя</title> и тд.

Оператор “intext:” ищет определенные слова в теле страницы. Самый распространенный вариант использования этого оператора —  intext:“powered by DataLife Engine” к примеру. Таким образом те, кто не снес копирайты окажутся в выдаче гугла.

В принципе вам вполне хватит для парсинга этих признаков, но не забывайте, что вручную уже никто ничего не собирает, тем более если вы погуляете по 3-10 страницам выдачи при использовании оператора скажем “inurl:” , то скорее всего вылезет капча от гугла и вам придется подтвердить что вы не робот. Поэтому для сбора баз необходимо иметь парсер с продуманным алгоритмом, умеющим работать через прокси/соксы и антикапчей.

Я при сборе баз использую как правило hrefer, webparser и парсер, встроенный в allsubmitter, но существует множество и бесплатных аналогов, которые работают не хуже, а иногда и лучше. В следующей статья я выложу признаки профилей форумов, думаю некоторым это будет полезно.

Всем хорошего дня!

Понравилась статья? Поделиться с друзьями:
Комментарии: 8
  1. Роман

    Спасибо!Много нового узнал.Век живи-век учись)))

  2. HOOPS

    Исследовать url и ешеду страницы полезно при поиске блогов с возможностью комментирования, вики-сайтов для написания контента.

    И еще: у Вас на блоге очень «удобная» капча.

Добавить комментарий для Роман Отменить ответ

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: