Moteurs de recherche : sortir de Google

 Rappel des objectifs du stage :

Développer la connaissance théorique et pratique des moteurs de recherche, utiliser d'autres moteurs que Google, découvrir les moteurs récents et innovants.

Contenu du stage :

-   présentation des principales sources et ressources d’information sur les outils et moteurs de recherche
-  rappel de la définition et des principes de fonctionnement des moteurs 
- proposition d'une typologisation des moteurs autour de cinq grands critères : l'offre de ressources (avec la distinction moteurs généralistes/moteurs spécialisés et les diverses spécialisations), l'implication des internautes (avec la notion de moteurs "participatifs"), l'indexation des données et la présentation des résultats (distinction entre moteurs visuels, cartographiques, etc.) ; les moteurs en temps réel.
-   présentation et exploration de différents types de moteurs, selon cette typologie, notamment :
      -  les grands moteurs généralistes : Yahoo, Exalead, Bing ;
    
  - les moteurs spécialisés :
            - selon les ressources internet : moteurs de FAQ
(QueryCat), de blogs (Technorati), de forums, de fils RSS, de tweets, etc. ;
          - selon la nature du contenu de l'information : moteurs d'actualité (Wikio), scientifiques (Scirus), d'entreprises (Accoona), de personnes (123People), etc. ;
         - selon la nature du media : moteurs d'images, de vidéos (Blinkx), de sons, de musiques ...
- les moteurs en temps réel : SocialMention... 
- les moteurs "participatifs" : moteurs contributifs, moteurs personnalisables (Rollyo) ;
- les moteurs sémantiques .
- les moteurs visuels, cartographiques.. 


Documents  disponibles :

- support Ppt du stage, 53 diapos, disponible sur Slideshare ;
- typologie des moteurs ;
- fiches descriptives des moteurs.

 

Type de formation: 
Stages
Auteur(s): 
Marie-Laure Malingre
Alexandre Serres
Thème: 
Recherche d'information
Public: 
Tous publics Urfist
Date de création: 
28/04/2008
Date de modification: 
19/10/2010
Tags: 
License: 

Moteurs de recherche : 10 fiches techniques

1/ Exalead
2/ Yahoo Search
3/ Rollyo
4/ Wikia
5/ Querycat
6/ Wikio
7/ 123People
8/ Powerset
9/ SearchMe
10/ Grokker


 

1/ EXALEAD

Type de moteur : moteur généraliste
Nom : Exalead
URL : http://www.exalead.fr/search
Date de création : 2000
Producteur : société Exalead, J.F. Bourdoncle
Principales caractéristiques :
-         index de plus de 8 milliards de pages web
-         nombreuses fonctions de filtrage des requêtes
-         possibilités d’affinement des recherches : par termes associés, par formats de fichiers…
-         aperçus graphiques des sites
-         plusieurs modules spécialisés : Images, (près de 2 milliards d’images), Vidéos, Wikipedia
-         moteur de bureau gratuit : Exalead Desktop
-         Offre payante de CloudView (nuage informationnel)

Points à signaler :
-         les différentes possibilités d’affinement de la « zapette » : blogs, forums, formats de fichiers…
-         le module Wikipedia : affinement par tags
-         la fonction de filtre « Visages »
-         Existence d'un blog (ExaBlog) de l'entreprise
-         Création de Baagz, plate-forme communautaire
Ressources, informations :
-        
http://fr.wikipedia.org/wiki/Exalead
-         http://urfist.univ-lyon1.fr/exalead-en-profondeur.pdf

 

Type de moteur : moteur généraliste
Nom : Yahoo Search (Yahoo! France)
URL : http://fr.search.yahoo.com/
Date de création : 2004
Producteur : Yahoo !
Principales caractéristiques :
-         En août 2005, annonce par Yahoo d’un index de 20,5 milliards de documents : 19,2 milliards de pages web, 1,6 milliard d’images, 50 millions de fichiers audios et vidéos 
-         Nombreux modules spécialisés (images, vidéos, requêtes de proximité, actualités…)
-         Possibilités de filtrage de la requête (formats, comme requêtes sur RSS/XML, domaines…) ;
Points à signaler :
-         le module MonWeb
-         accès à un service de questions / réponses
-         raccourcis de recherche
-         assistant de recherche (suggestion de mots : mots clés et images)
-         recherche universelle (Yahoo ! Glue sur yahoo.com)
-         en projet : Blocnote Search Pad : historicisation de la recherche et commentaires
-         choix de modules de résultats pour personnalisation sur la page de résultats
Ressources, informations :
- http://www.secrets2moteurs.com/veille/actualites-yahoo

 

3/ ROLLYO

Type de moteur : Moteur personnalisable
Nom : Rollyo
URL : http://www.rollyo.com/
Date de création : 2005
Producteur : Société Rollyo, San Francisco (Dave Pell)
Principales caractéristiques :
-         outil de création de moteur personnalisé
-         ajout de sites sur lesquels portera la recherche (jusqu’à 25 sites)
-         possibilité de limitation à un seul site
-         recherche dans une liste de catégories prédéfinies
-         partage de son moteur personnalisé
-         exploration et modification possible des moteurs de recherche des autres utilisateurs
-         mise à disposition d’outils (lien Tools) facilitant l’utilisation de Rollyo : plug-in Firefox, boîte de recherche pour site web, barre Rollyo, mode d’import de bookmarks pour le moteur de recherche personnalisé
Points à signaler :
-         intégration de l’API de Yahoo Search
-         possibilité d’utiliser Rollyo sans s’enregistrer
-         Bookmarklet à intégrer dans la barre personnelle du navigateur pour rechercher dans le site affiché
-         « high rollers », utilisateurs dont les moteurs de recherche personnels sont les plus populaires
-         option de recherche sur l’ensemble du web
-         Rollyo Buzz
Ressources, informations :
-         http://fr.techcrunch.com/tag/Rollyo/

 

 

4/ WIKIA

Type de moteur : Moteur participatif
Nom : Wikia Search
URL : http://search.wikia.com/wiki/Search_Wikia ; http://search.wikia.com/ http://search.wikia.com/wiki/Search_Wikia/fr
Date de création : 2008
Producteur : Jimmy Wales ; Wikia, Inc.
Principales caractéristiques :
-         participation de la communauté : moteur de recherche humain + réseau social + résultats génériques venant de Grub
-         vise l’amélioration de la qualité et de la précision de la recherche et des résultats renvoyés
-         licences libres, contenu ouvert, utilisation d’APIs
-         protection de la vie privée
-         forme wiki (wikipédia)
Points à signaler :
-         mini-articles rédigés en code wiki, par les contributeurs et proposés en tête de liste sur le sujet (ils peuvent contenir des définitions, des photos, des désambiguïsations, des renvois vers d'autres mini-articles)
+  Cf Olivier Andrieu sur le site Abondance
-         Un système de discussion entre utilisateurs sur la qualité des réponses à une requête donnée.
-         Un système de profils de réseau social "à la Facebook".
-         Des propositions de profils de personnes intéressées par ce domaine sur la droite de la page de résultats.
-         Un système de notation de la pertinence du résultat sur la base de 1 à 5 étoiles, mais qui ne semble pas active actuellement.
-         Un lien vers la page en cache (renvoie aujourd'hui de nombreuses erreurs système).
-         Des liens vers d'autres index (sites de confiance, autre moteur Open Source, etc.).
Ressources, informations :
Wikia, sur affordance.info : http://affordance.typepad.com/mon_weblog/2008/01/wikia.html
Wikia, sur Wikipédia : http://fr.wikipedia.org/wiki/Wikia
Wikia Search : premières impressions, sur Abondance, le blog : http://blog.abondance.com/2008/01/wikia-search-premires-impressions.html

  

5/ QUERYCAT

 Type de moteur : moteur de FAQ
Nom : Querycat.com
URL : http://www.querycat.com/
Date de création : avril 2007
Producteur : QueryCat
Principales caractéristiques :
-         Recherche dans + 5 millions de FAQ
-         Ressources et interface en anglais
-         Requête en langage naturel (mais résultats identiques avec les mots-clés de la requête)
-         Liens vers les pages des FAQ
Points à signaler :
-         fonction Related : permet d’élargir la question aux questions proches
-         recherche par tags
Ressources, informations :
-         article de Netsources, n°71, nov.déc. 2007, p. 9
  
 

6/ WIKIO

Type de moteur : portail de presse, moteur d’actualités et de blogs
Nom : Wikio
URL : http://www.wikio.fr/
Date de lancement : 19 juin 2006
Producteur : Société Wikio, Luxembourg ; créé par Pierre Chappaz (fondateur de Kelkoo)
Principales caractéristiques : (au 28/2/09)
-         indexe sources de presse et blogs ;
-         annonce 64312 blogs et sites d’actualités indexés, dont plus de 55800 blogs ;
-         modules spécialisés sur les Actualités, les blogs, le shopping, et « Live » : suivi de l’actualité en temps réel (de l’indexation…)
-         agrégation des billets et nouvelles, selon plus de 30 000 catégories
Points à signaler :
-         Technologie d’indexation et de recherche sémantique de Sinequa  (moteur Intuition) 
-         Catégorisation automatique des billets dans les catégories
-         Possibilité d’abonnement RSS sur des sujets, des catégories précises et même des requêtes 
-         interface de requêtes assez pauvre : pas de prise en compte des expressions, beaucoup de bruit
-         classement des blogs « influents » par catégories, selon le nombre de rétroliens ; voir http://www.wikio.fr/blogs/top/science
-         recherche par tags
-         possibilités d’intervention des internautes : signalement de pages, votes…
-         nombreux outils personnalisables proposés 
-         innovations technologiques permanentes : cf les Wikio Labs
-         voir notamment Backlink Factory 
Ressources, informations :
-         http://www.search-engine-feng-shui.com/tag/wikio/
-         http://aixtal.blogspot.com/2008/02/wikio-portail-dactualits-intelligent.html

 
 

Type de moteur : Moteur de recherche de personnes
Nom : 123People
URL : http://www.123people.com/
Date de création : 2008
Producteur : 123people Internetservices, société autrichienne
Principales caractéristiques :
- recherches de toutes les traces publiques concernant (ou laissées par) une personne sur le web :
-          données personnelles : photos, numéros de téléphone, adresses emails, compte de messagerie instantanée ;
-          documents produits : sites web, blogs, documents, vidéos, actualités, ouvrages…
-          profils de réseaux sociaux : Linkedin, services de social networking
- agrégation et structuration des traces
Points à signaler :
- quantité de données collectées sur une personne
- organisation graphique et claire des données 
- création d’un nuage de tags
Ressources, informations :
- 123people le moteur de recherche de personnes qui fait peur, Outils Froids ; http://www.outilsfroids.net/news/123people-le-moteur-de-recherche-de-personnes-qui-fait-peur

 
 

Type de moteur : Moteur de recherche sémantique en langage naturel
Nom : PowerSet
URL : http://www.powerset.com/
Date de création : 2006
Producteur : PowerSet, société californienne,rachetée parMicrosoft en août 2008
Principales caractéristiques :
-         recherche dans Wikipédia et dans FreeBase
-         analyse sémantique des phrases
-         requêtes en langage naturel
-         accès aux articles de Wikipedia
-         accès au moteur Live Search
Points à signaler :
- organisation claire des résultats : biographies, photos, articles…
- affichage de données en relation avec la question
- possibilité de tri des résultats
Ressources, informations :
- http://www.01net.com/editorial/384928/microsoft-s-offre-un-google-killer-/?rss
- http://actu.abondance.com/2008/07/confirmation-microsoft-rachte-powerset.html
-http://fr.techcrunch.com/2008/05/12/premiere-presentation-de-powerset-le-moteur-de-recherche-semantique/
- http://www.business-garden.com/index.php/2008/05/28/recherche_en_langage
_naturel_wikipedia

 
 

Type de moteur : Moteur de recherche généraliste visuel
Nom : SearchMe
URL : http://beta.searchme.com/
Date de création : 2008
Producteur : SearchMe, Inc.
Principales caractéristiques :
-         1 milliard de pages indexées
-         affichage visuel des résultats de recherche, par défilement de captures d’écran sous forme de feuillets
Points à signaler :
-         des catégories sont proposées au moment de la saisie de la requête
-         affichage des résultats textuels dans la partie inférieure de l’écran
Ressources, informations :
SearchMe : moteur de recherche visuel en Flash
http://www.clubic.com/actualite-130274-searchme-moteur-recherche-visuel-flash.html

 
10/ GROKKER

Type de moteur : moteur de recherche généraliste cartographique
Nom : Grokker
URL : http://www.grokker.com/
Date de création : 2001 ?
Producteur : Groxis, Inc
Principales caractéristiques :
-         Résultats sous forme de clusters graphiques
-         Affichage plus précis par zoom
-         Parallèlement, affichage des résultats sous forme textuelle
Points à signaler :
-         recherche faite dans Yahoo, Wikipédia, Amazon Books (au choix)
-         possibilité d’export et d’envoi des résultats par mail
Ressources, informations :
Grokker, un outil global et graphique de recherche d’information. Outils froids
http://www.outilsfroids.net/news/grokker-un-outil-global-et-graphique-de-recherche-d-information

 
 

 


 

Typologie des moteurs et outils de recherche

 

Remarque préalable :

Il existe de nombreuses typologies possibles des moteurs de recherche, selon toutes sortes de critères. Chaque moteur relève de plusieurs catégories, les critères sont évidemment étroitement imbriqués et présents simultanément. Et il est donc vain de chercher à dresser une typologie complète et définitive, sur des "objets" aussi mouvants et hybrides que les moteurs de recherche.[1]

La typologie proposée ici est donc très limitée, partielle et cherche seulement à faire ressortir quelques grands critères, permettant une exploration et une comparaison cohérente d’un certain nombre d'outils.

Nous avons choisi plusieurs critères permettant une approche différenciée des moteurs :  

- l'offre des ressources : quelle est la nature du contenu des ressources collectées ? Quels sont les "objets" informationnels collectés et indexés ?
Ce critère très large regroupe de très nombreuses sous-catégories, et la nature de l’offre de ressources est sans aucun doute le principal critère de différenciation des moteurs de recherche ;

- le caractère « participatif du moteur », i.e. le degré, la nature, les modalités, etc. d’implication des internautes sur l’utilisation du moteur ; autrement dit, il s’agirait là d’observer les caractéristiques « web 2.0 », adoptées par les moteurs de recherche.  

- la présentation des résultats : les résultats sont-ils présentés de manière linéaire, visuelle, cartographique, orale, etc. ?

- le mode d'indexation : la différenciation des moteurs de recherche selon leurs modalités d'indexation des ressources (indexation morphologique, lexicale, sémantique, etc.) est très difficile, voire impossible, à établir, car on connaît rarement les techniques d'indexation utilisées ; mais nous signalons néanmoins une catégorie de moteurs assez rares : les moteurs sémantiques.
 
- le temps réel : nouvelle catégorie de moteurs de recherche en plein essor, les moteurs dits "en temps réel" doivent être signalés, même si ce critère du temps réel reste parfois imprécis. Il faudrait distinguer la collecte en temps réel, l'indexation, ou la recherche en temps réel.
 

1/ Typologie selon l’offre de ressources

Notes :
- aucune exhaustivité n'est visée ici : au contraire, nous présentons seulement quelques exemples représentatifs d'une catégorie d'outils ; il ne s'agit pas non plus d'une sélection des "meilleurs" outils...
- en gras, les outils consultés au cours du stage

 
Catégories de critères
Types de ressources
Exemples d'outils

Moteurs généralistes

 
Moteurs spécialisés :
 
 
1/ Selon les ressources internet
 
 

Pour chercher des / dans les :

 
 
 
Listes de diffusion
 
Forums
 
FAQ
(Frequently Asked Questions)

QueryCat 

 
Blogs
 
Wikis
 

Fils RSS

RSSfeeds.com
Feediop
En médecine : Medworm
 

Plateformes de partage de signets  

  Micro-blogging, tweets

Topsy
TweetGrid
Stickytter
Twingly

  Réseaux sociaux

48ers
Searchmotive

2/ Selon la nature du contenu
 
 

Pour chercher des :

 
 
 

Actualités (news)

 

Documents scientifiques

Scirus (Elsevier)
SearchPigeon (Humanités)
Techxtra (Engineering, Mathématiques, Informatique)
AuthorMapper (Springer)
Exemplar (Springer)
Avano (Ifremer)
 
Entreprises, prestataires
 
Produits
 
Personnes
 
Informations géolocalisées :
- sites, villes
- entreprises


Geolocalisation
Georecherche

 
Offres d’emploi
 
Contenus thématiques
  Contenus similaires à un site Similar Site Search
  Contenus les plus partagés (buzz) Wasalive
3/ Selon la nature du média
 
 

Pour chercher des :

 
 
 
Images

Exalead Images 
Picsearch
Yahoo Images

 
Vidéos
 
Sons
 
Musiques
(fichiers MP3)
 

Diapositives 

 

Fichiers PDF

 
 

2/ Moteurs de recherche en temps réel

 
Types de moteurs
Exemples de moteurs

  Moteurs de blogs, de news, de vidéos, de tweets, de réseaux sociaux…

 

 3/ Typologie selon l’implication des internautes

 
Catégories de critères
Types de moteurs
Exemples de moteurs

Type de participation des internautes

 
 
 

Moteurs contributifs :
- Questions-réponses
- Classement des résultats
- Favoris

 
 

Moteurs personnalisables

 
 
 

4/ Moteurs de recherche sémantique

 
Types de moteurs
Exemples de moteurs

  Langage naturel, indexation sémantique, clustérisation…

5/ Typologie selon la présentation des résultats

 
Catégories de critères
Types de moteurs
Exemples de moteurs
Présentation linéaire des résultats
Moteurs linéaires

Majorité des moteurs

 

Présentation visuelle des résultats

 
 
 
Moteurs visuels
Exalead : aperçus graphiques
Quintura : nuages de tags
 
Moteurs cartographiques
 
 
 
[1] Une telle classification des outils de recherche, qui se voudrait exhaustive, risquerait vite de  s'apparenter à la célèbre "encyclopédie chinoise" de Borgès, ce modèle taxonomique de l’hétérogène popularisé par Michel Foucault, dans laquelle les animaux étaient répartis en "a) appartenant à l'Empereur, b) embaumés, c) apprivoisés, d) cochons de lait, e) sirènes, f) fabuleux, g) chiens en liberté, h) inclus dans la présente classification, i) qui s'agitent comme des fous, j) innombrables, k) dessinés avec un pinceau très fin en poils de chameau, l) etc.,  m) qui viennent de casser la cruche, n) qui de loin semblent des mouches." Michel Foucault, Les Mots et les choses, Gallimard, 1966, p. 7.