Всем привет! В предыдущей статье я выложил небольшую часть признаков популярных CMS , как вы заметили там встречается оператор “inurl:”, многие довольствуются только им, но существует еще несколько операторов, которые помогут собрать наиболее полную и качественную базу сайтов. Но обо всем по порядку.
Оператор “inurl:” позволяет собирать сайты по признакам, содержащимся в самом URL сайта. К примеру «index.php?do=register» на сайте ведет на форму регистрации как правило DLE сайта и если проверить выдачу гугла по этому запросу — вы найдете немало сайтов на этом движке. Это основной оператор, используемый для сбора баз.
Оператор ”intitle:” ищет определенную комбинацию слов в названии ресурса, а если быть точнее в исходном коде главной страницы между тегами <head></head>. Например intitle:»Регистрация пользователя». и мы найдем сайты, где будет в исходном коде <title>Регистрация пользователя</title> и тд.
Оператор “intext:” ищет определенные слова в теле страницы. Самый распространенный вариант использования этого оператора — intext:“powered by DataLife Engine” к примеру. Таким образом те, кто не снес копирайты окажутся в выдаче гугла.
В принципе вам вполне хватит для парсинга этих признаков, но не забывайте, что вручную уже никто ничего не собирает, тем более если вы погуляете по 3-10 страницам выдачи при использовании оператора скажем “inurl:” , то скорее всего вылезет капча от гугла и вам придется подтвердить что вы не робот. Поэтому для сбора баз необходимо иметь парсер с продуманным алгоритмом, умеющим работать через прокси/соксы и антикапчей.
Я при сборе баз использую как правило hrefer, webparser и парсер, встроенный в allsubmitter, но существует множество и бесплатных аналогов, которые работают не хуже, а иногда и лучше. В следующей статья я выложу признаки профилей форумов, думаю некоторым это будет полезно.
Всем хорошего дня!
Спасибо!Много нового узнал.Век живи-век учись)))
Исследовать url и ешеду страницы полезно при поиске блогов с возможностью комментирования, вики-сайтов для написания контента.
И еще: у Вас на блоге очень «удобная» капча.