Всем привет! В предыдущей статье я выложил небольшую часть признаков популярных CMS , как вы заметили там встречается оператор “inurl:”, многие довольствуются только им, но существует еще несколько операторов, которые помогут собрать наиболее полную и качественную базу сайтов. Но обо всем по порядку.
Оператор “inurl:” позволяет собирать сайты по признакам, содержащимся в самом URL сайта. К примеру «index.php?do=register» на сайте ведет на форму регистрации как правило DLE сайта и если проверить выдачу гугла по этому запросу — вы найдете немало сайтов на этом движке. Это основной оператор, используемый для сбора баз.
Оператор ”intitle:” ищет определенную комбинацию слов в названии ресурса, а если быть точнее в исходном коде главной страницы между тегами <head></head>. Например intitle:»Регистрация пользователя». и мы найдем сайты, где будет в исходном коде <title>Регистрация пользователя</title> и тд.
Оператор “intext:” ищет определенные слова в теле страницы. Самый распространенный вариант использования этого оператора — intext:“powered by DataLife Engine” к примеру. Таким образом те, кто не снес копирайты окажутся в выдаче гугла.
В принципе вам вполне хватит для парсинга этих признаков, но не забывайте, что вручную уже никто ничего не собирает, тем более если вы погуляете по 3-10 страницам выдачи при использовании оператора скажем “inurl:” , то скорее всего вылезет капча от гугла и вам придется подтвердить что вы не робот. Поэтому для сбора баз необходимо иметь парсер с продуманным алгоритмом, умеющим работать через прокси/соксы и антикапчей.
Я при сборе баз использую как правило hrefer, webparser и парсер, встроенный в allsubmitter, но существует множество и бесплатных аналогов, которые работают не хуже, а иногда и лучше. В следующей статья я выложу признаки профилей форумов, думаю некоторым это будет полезно.
Всем хорошего дня!
Тоже собираю базу но пользуюсь в основном оператором inurl
Отличная статья.Спасибо за полезную информацию.
Большое спасибо, пригодилось, сохранил себе страницу)
пригодилось, спасибо, но буквально на днях прочитал про них)) совпадение…
Так это как, просто в в строку поиска вписываешь, к примеру, index.php?do=register и нажимаешь поиск и все? Эти признаки и есть запросы?
В принципе если нет хорошей базы шустрых прокси в парсилке, то можно вообще забить на операторы и искать тупо по признакам.
Да