logo seela

Comment “hacker” Google ? – Tout savoir sur les Google Dorks

Benjamin Cazier – Consultant cybersécurité

octobre 25, 2023

Temps de lecture : 5 min

Sommaire

Ce n’est pas le premier et ça ne sera pas non plus le dernier article sur ce sujet, qui continue d’évoluer sans cesse, en partie avec l’engouement pour l’OSINT. Je vous propose de faire le point sur les Google Dorks, ce qui sera un très bon moyen de découvrir ce sujet et pour les sachants, une petite piqûre de rappel et qui sait, pourquoi pas un peu de culture geek pour les diners mondains.

📌 De quoi parle-t-on précisément ?

C’est en 2002, quand les modems faisaient encore du bruit pour se connecter juste après l’insertion du CD-ROM « AOL50 heures offertes », que Johnny Long (pas le joueur de football américain, ni le musicien) – l’expert en sécurité informatique aussi connu sous le nom de “j0hnny” or “j0hnnyhax” – commence à créer une liste de requêtes permettant de trouver des informations non négligeables tels que des systèmes vulnérables ou des informations sensibles.

Ces requêtes s’appellent les Google dorks (signifiant quelque chose comme un idiot trouvé par Google en bon français). Pourquoi l’avoir appelé comme ça ? J’imagine qu’il s’adressait aux webmasters de l’époque qui ne devaient pas trop maîtriser l’utilité du fichier robot.txt, des fichiers Sitemaps.xml et des liens présents sur leur site. On parle également de Google hack (ne voyez pas la personne à capuche essayant de gagner de l’argent illégalement, mais plutôt le sens originel du terme, c’est-à-dire pousser (voir détourner) une technologie à son maximum).

C’est là que notre Johnny a utilisé tout son génie. Quand nous, personne lambda, effectuons une recherche sur Google, notre requête va ressembler à quelque chose du style « Comment faire un burger végétarien » ou « Comment faire des vacances sans voiture » un peu comme si on parlait à un ami. Mais en réalité, pour avoir une recherche plus efficace, il faudrait faire des requêtes à la manière d’une machine. C’est comme ça que notre Mister Long travaillait, car il avait découvert ce qu’il était possible de trouver …

🎮 Comment jouer avec ?

Disclaimer : Mais attends, est-ce que c’est légal tout ça ? Tout dépend de vos intentions. Cet article est écrit dans un but éducatif, n’utilisez pas cette technique pour une activité illégale. C’est en apprenant les techniques d’attaques qu’il est possible de se protéger en conséquence.

« Un grand pouvoir implique de grandes responsabilités » dixit Ben, l’oncle de Spider Man, ou encore Franklin D. Roosevelt en 1945, ou par Winston Churchill en 1906 entre autres.

Même si vous pensez être à l’abri des regards, n’oubliez pas que vous passez par Google qui doit en savoir bien plus sur vous que votre propre mère … L’histoire s’est déjà passée, ici, avec un dénommé Bluetouff condamné à 3 000€ d’amende.

De plus, certaines entreprises mettent en place des honeypots possédant de fausses informations afin de surveiller les personnes susceptibles de les attaquer. Donc, éviter de faire comme Winny, pris la patte dans le pot.

🛠️ Son fonctionnement

Rien de plus simple, pas besoin de savoir coder ou de comprendre le dernier protocole de routage à la mode. Il suffit de taper son expression dans le moteur de recherche. Les exemples donnés ici, se basent sur Google, mais il est possible d’utiliser d’autres moteurs de recherche en adaptant la syntaxe. Pour rappel, Google n’est pas sensible à la casse (majuscule/ minuscule), ni les mots de structure usuels (articles, conjonctions).

La requête se compose de 2 composants :

  1. L’opérateur,
  2. Le motif de recherche : l’information que vous recherchez.

1. L’opérateur

Il existe différentes catégories d’opérateur : les booléens, la ponctuation, les symboles et les spécifiques.

a. Les booléens

Si vous vous souvenez de vos cours de physique ou de logique, vous avez déjà compris. Ce sont les opérateurs qui viennent des fonctionslogiques.

  • Opérateur : AND  ou +
  • Description : Les sites contenant uniquement les deux termes ou plus mais pas ceux contenant uniquement l’un d’eux.
  • Exemple : Voiture AND électrique  + française

  • Opérateur : OR ou |
  • Description : Permet de rechercher un terme, ou un autre (l’inverse de AND).
  • Exemple : Recette végétarienne OR végétalienne |vegan

  • Opérateur : NOT ou  –
  • Description : Utilisée pour exclure des mots-clés. Tous les mots-clés doivent être trouvés.
  • Exemple : Recette AND burger bacon

b. La ponctuation et les symboles

Encore une fois, si vous manipulez un peu les expressions régulières, vous n’allez pas être perdu. Sinon voici un petit résumé.

  • Opérateur : « »
  • Description : Recherche une expression exacte uniquement dans l’ordre indiqué
  • Exemple : « Salade césar »
  • Opérateur : ..
  • Description : Permet de rechercher dans un intervalle
  • Exemple : Restaurant 20..30
  • Opérateur : *
  • Description : Remplacer  plusieurs caractères ou plusieurs mots
  • Exemple : Salade*
  • Opérateur : ()
  • Description : Rassemble les termes d’une recherche pour s’assurer qu’ils soient bien compris ensemble
  • Exemple : Salade AND (caesar | niçoise)
  • Opérateur : ~
  • Description : Devant un mot permet d’inclure les synonymes de celui-ci
  • Opérateur : @
  • Description : Recherche des tags de réseaux sociaux.
  • Opérateur : #
  • Description : Recherche des sujets tendances précédés d’un hashtag

c. Les spécifiques

Il en existe plusieurs dizaines. Le but n’est pas de tous vous les présenter, mais de vous donner quelques exemples pour voir comment ils fonctionnent. Si vous voulez la liste complète, c’est très facile à trouver

  • Opérateur : site:
  • Description : Rechercher uniquement sur  le site web.
  • Opérateur : inurl:
  • Description : Restreint la recherche à l’URL des pages.
  • Opérateur : intitle:
  • Description : Restreint la recherche à la balise title des pages.
  • Opérateur : Intext:
  • Description : Recherche tous les termes de la requête dans le contenu de la balise body de la page.
  • Opérateur : ext:ou filetype:
  • Description : Recherche un  type d’extension de fichier (ex, pdf, xlsx, docx …)
  • Opérateur : link:
  • Description : Rechercher les liens qui redirigent vers un site
  • Opérateur : domaine:
  • Description : Restreint la recherche à un domaine (Ex: .fr ougouv.fr)
  • Opérateur : ip:
  • Description : Restreint la recherche sur l’ip de la machine
  • Opérateur : Before/after:
  • Description : Permet de recherche avant ou après une date précise
  • Opérateur : cache:
  • Description : Consulter une page telle qu’elle s’affichait lors de la dernière visite de Google.

L’opérateur se termine par « : » suivi du motif de recherche, sans espace 😊
Bien sûr, tous ces opérateurs peuvent se mélanger entre eux. C’est ce qui donnera toute l’efficacité de la requête.

📌 Les cas d’usage

1. Cybersécurité

On ne va pas se le cacher, c’était l’objectif originel du dorking et ça l’est encore aujourd’hui. Cette activité est utilisée par les attaquants. Prenons la kill chain (réalisé par la société Lockheed Martin en 2011) comme exemple. Qu’est-ce que la kill chain ? En bref, c’est la modélisation des différentes étapes d’une attaque cyber.

Le dorking est présent dès la toute première étape qui est celle de la Reconnaissance, parfois appelée footprinting. Cette étape correspond à la collecte d’informations concernant la cible.

D’un point de vue technique :

  • Cartographie des sites exposés ;
  • Cartographie des technologies utilisées (par manque de mise à jour ou en trouvant des profils d’employésun peu trop verbeux par exemple) ;
  • Cartographie des vulnérabilités non ouvertes ;
  • Cartographie des fichiers de logs ;
  • Cartographie des dumps de bases de données
  • …etc

Aujourd’hui il existe une base de données des requêtes, appelée ghdb pour Google Hacking Database qui vous permettra d’occuper vos longues soirées hivernales : https://www.exploit-db.com/google-hacking-database

Il ne faut pas non plus négliger le côté « humain »avec l’ingénierie sociale. Le dorking permet de faire plus facilement :

  • De l’usurpation d’identité en trouvant les relations des employés ;
  • Des profils sur les réseaux sociaux et connaitre les passions et activités d’une personne en vue de créer des supports de phishing plus efficaces.

Ou encore plus directement en trouvant :

  • Des fichiers confidentiels en vue d’espionnage industriel ;
  • Des listes avec des données à caractères personnels ;
  • Des caméras videos :Intitle:”webcamXP 5”’
  • Une session Zoom : inurl: zoom.us/j andintext:scheduled for

2. Le dorking défensif

Si c’est utilisé par les attaquants, le dorking est également utilisé par les défenseurs ou encore pendant un audit de sécurité ou durant les périodes de RedTeam. Rien de mieux que de se mettre dans la peau de l’attaquant pour pouvoir se défendre.

D’un point de vue technique, voici un peu plus précisément le type de recherches basiques qui sera utilisée :

  • SQL Dumps : “index of””database.sql.zip” ;
  • Fichier de log : allintext:usernamefiletype:log ;
  • WordPress Admin : inurl:wp-config-intext:wp-config ” ‘DB_PASSWORD’ ” ;
  • Apache 2 : “Index of”inurl:phpMyAdmin ;
  • phpMyAdmin : “Index of” inurl:phpMyAdmin;
  • Serveur FTP : intitle:”index of” inurl:ftp ;
  • Des noms d’utilisateur et les mots de passe :filetype:mdb inurl:”account|users|admin|administrators|passwd|password”
  • Lister tous les sous-domaines qui utilisent des protocoles non chiffrés : site:monsite.com -inurl:https

 

D’un point de vue plus personnel, vous pouvez rechercher s’il n’y aurait pas des informations un peu trop sensibles vous concernant avec des recherches comme :

  • Bob filetype:pdf OR filetype:xlsx OR filetype:docx
  • Bob intext:”numéro de telephone ou adresse mail”

Ces recherches sont aussi fortement utilisées dans des domaines comme l’OSINT et par des journalistes d’investigation par exemple. Le champ des possibles n’a pas vraiment de limite…

3. Le SEO

Un autre domaine dans lequel l’usage des requêtes avancées peut faire la différence est celui du Search Engine Optimisation ou encore de l’optimisation pour les moteurs de recherche. Vous savez, ce sont toutes les petites actions qui vont permettre à votre site internet d’arriver dans les premiers résultats de Google.

Prenons quelques exemples :

  • Lister ce que Google considère de similaire à votre site avec l’opérateur « reladedd: »
  • Vérifier comment Google affiche votre site avec l’opérateur : « cache: »
  • Afficher toutes les pages indexéeser par le moteur de recherche : site:yourdomain.com

4. Le recrutement

Enfin un dernier domaine où le dorking peut devenir un outil de tous les jours : la recherche de profil à recrutement. Avec l’avènement de l’utilisation de LinkedIn et compagnie, il est presque devenu indispensable aujourd’hui pour quelqu’un qui recherche un nouvel emploi de publier son profil sur la toile. Il est ainsi possible de le retrouver.

Quelques exemples glanés par  –ci, par -là. Je pense que vous allez comprendre par vous-même le but des requêtes :

  • “gmail” site:www.linkedin.com/in data engineer python
  • site:www.linkedin.com/in “data scientist” “* * years|experience of|in|on|with * * * * *”
  • python “data engineer” “email|contact me|at” site:www.linkedin.com/in

🛡️ Comment s’en protéger ?

Les dorks sont parfois là où on s’y attend le moins. Encore en 2020, si on lançait la recherche site:chat.whatsapp.com, Facebook permettait d’accéder à une liste de plus 400 000 liens de groupes « normalement » fermés à la base.

Presque tout le monde peut être concerné. Petite mise en situation :

Vous avez acheté une caméra de surveillance que vous installez en 2 minutes pour surveiller votre chat quand vous êtes absent. La caméra communique avec un serveur et lit la vidéo en temps réel, vous permettant de vous connecter et d’ouvrir le flux vidéo hébergé sur ce serveur à partir de votre téléphone. Ce serveur ne demande pas de mot de passe ou c’est le mot de passe par défaut que vous avez laissé (pour que ce ne soit pas trop compliqué à utiliser) pour accéder au flux de votre webcam. Ce qui rend accessible au monde entier la vie de votre chat (et l’intérieur de chez vous, bienvenue dans Loft Story) en recherchant le texte contenu dans la page d’affichage de la caméra.

Il existe des moyens pour éviter ça. Les premiers conseils évidents mais nécessaires à rappeler sont :

  • Publier des informations sensibles que lorsque que c’est strictement nécessaire ;
  • Ne pas mélanger vie privéeet vie professionnelle (équipement, ressource…) ;
  • Surveiller et personnaliserles configurations des applications ou sites internet des réseaux sociaux, afin de maitriser la portée des publications ;
  • Utiliser un gestionnaire de mots de passe, pour avoir facilement un mot de passe différent sur tous vos profils ;
  • Vérifier les documents partagés sur vos espaces de cloud publics ;

Sur le plan technique, si vous administrez un serveur web,un site internet ou tout autre équipement accessible depuis internet, veillez bien à :  

  • Effectuer les mises à jour régulièrement ;
  • Renforcer les configurations des équipements exposés / accessibles par internet ;
  • Prêter une attention particulière aux fichiers robot.txt, Sitemaps.xml et autres balises Meta, noindex.Vous pourrez trouver facilement des guides de configurations sécurisés ;
  • Chiffrer tous vos mots de passe, identifiants et sauvegardes de bases de données ;
  • Effectuer des scans de vulnérabilités ;
  • Dorkez-vous, c’est parfoisle seul moyen de voir ce qui est possible de trouver sur vous-même.

Pour les plus grosses sociétés, la fuite de données est également une préoccupation en bonne position dans les feuilles de route SSI. Des sociétés spécialisées proposent des services d’outils de DLP (Data LeakPrevention) ou encore des services de Threat Intelligence qui pourront entre autres scanner le darkweb à la recherche de données d’entreprise.

🤓Pour aller un peu plus loin

Maintenant, vous en savez un peu plus sur l’utilisation des moteurs de recherche. L’utilisation des dorks n’est pas compliquée, la difficulté réside dans la connaissance de la structure de l’information que vous recherchez.

Cette méthode de recherche avancée ne se limite plus à Google ou aux autres moteurs de recherche. Il en existe pour d’autres plateformes hébergeant énormément de contenu comme Github,Pastebin, Twitter…

Aujourd’hui, notre Johnny se consacre entièrement à l’organisation Hackers for Charity mais il avait publié plusieurs livres sur les Google dorks, dont le dernier date de 2015.

Sources

https://en.wikipedia.org/wiki/Johnny_Long

https://support.google.com/websearch/answer/2466433?hl=en

https://www.exploit-db.com/google-hacking-database

https://www.bruceclay.com/blog/bing-google-advanced-search-operators/

https://en.wikipedia.org/wiki/Google_hacking

https://medium.com/codex/master-at-google-hacking-dorking-27d14e7249be

https://www.lifewire.com/bing-advanced-search-3482817

https://www.clubic.com/antivirus-securite-informatique/actualite-617326-bluetouff-3000-amende-recherche-google-anses.html

https://www.schauer.fr/wp-content/uploads/2018/01/CA-Hakin9-06-2008-googlehacking.pdf

Commencez votre formation en cybersécurité

Formation

Carrière

Cybersécurité

100% en ligne

Donnez un nouveau souffle à votre carrière avec nos formations cybersécurité

Mail

information@seela.io