Quels sont les risques légaux encourus par une réutilisation de l'index de Google ?

Google met à disposition du public une version de son index épurée des publicités. Cette version se trouve sur www.google.com/ie et est disponible sur l'ensemble de ses data centers. Elle semble être utilisée par certaines versions d'Explorer pour des utilisations spécifiques.

La question est la suivante : Google fournit ce service au public, et est décrit par l'annuaire Google comme "l'essentiel de l'interface qui ne retourne que les titres des pages" (en fait, les descriptions sont présentes, mais n'apparaissent que lors d'un survol du titre sur IE). Cette version de Google est assez stable, et facile à dupliquer. Aucune modification n'a été apportée à nos pages depuis deux ans et demi. De plus, nous contestons le fait que cet index sans pubs n'apporte quelque chose de plus que ce que Google ne fait déjà. Ce que nous avons fait rend presque plus attractif et utile ce service.

Public Information Research, Inc. est une association à but non lucratif dont les revenus sont inférieurs à 20 000 dollars annuels. Nous avons exploité ce serveur pendant deux ans sans avoir reçu aucune plainte de la part Google. Toutefois, notre site Scroogle a fait la démonstration d'un script quasi identique qui fut bloqué par Google en décembre 2003. Celui-ci était différent du programme que nous présentons ici. Il s'agit de la réplication exacte de ce que nous avons lancé en septembre 2002 sur Google Watch. En moins d'un an, nous avons atteind les 5 000 recherche quotidiennes.

Lorsque Google a bloqué Scroogle, nous avons changé de serveur. Une des caractéristiques de ce serveur était que les adresse IP montrées à Google lors d'un curl ou wget pour faire une recherche provenaient de classes C différentes de tous les autres domaines présents sur ce serveur dédié. Ce qui signifie que Google ne pouvait plus nous bloquer simplement en banissant les class C qu'ils avaient identifiées. Ils étaient obligé de procéder à d'importantes expérimentations afin de détecter notre véritable IP. C'est comme celà que nous avons empêché Google de nous bloquer, et nous n'avons jamais entendu parler des avocats de Google, même s'ils en savaient assez sur nous pour nous trouver.

Légalement, Google a probablement le droit de bloquer qui ils veulent... Mais légalement aussi, nous considérons en tant qu'organisation à but non lucratif que nous avons le droit, sans violer la propriété intellectuelle de Google, d'accéder de quelque manière que ce soit aux données publiques qu'il fournit. Ceux qui souhaiterons nous opposer les lois sur le copyright, commençerons d'abord par considérer que Google aspire des milliards de pages web et les duplique dans son cache sans en demander la permission à personne. Un écart de conduite qui sert de support aux publicités qui rendent Google indécemment riche. Alors voilà, selon nous, cet état de fait soulève une vraie question de copyright. A l'heure où nous écrivons ces lignes, Google représente une capitalisation boursière de 55 milliards de dollars. Ce qui excede la capitalisation de General Motors et de Ford réunis. Google est probablement la source d'information la plus importante de la planète, et s'enrichit sur le dos de tous. Il est temps pour Google de rétrocéder au secteur public ce qu'il lui doit.

Nous invoquons l'utilisations légitime des données publiques de l'index Google. Notre action est régie par l'intérêt général auquel Google est complètement insensible. Notre activité ne va pas à l'encontre des opérations de Google. Nous n'avons fait que diffuser notre modeste script sur une douzaine de data centers de Google. N'utilisez pas ce programme si vous avez l'intention d'en retirer un bénéfice commercial. Ne présentez pas de publicités sur votre site si vous utilisez ce programme. En diffusant des publicités, vous donneriez à Google les arguments légaux pour vous pousuivre en justice. En utilisant l'index de Google sans en retirer un quelconque bénéfice, vous mettez toutes les chances de votre côté en plaidant une "utilisation légitime" devant un juge. Au PIR (Public Information Research), nous pensons qu'il serait salvateur que l'utilisation à des fins non commerciales des données récoltées par Google soit acceptée et autorisée légalement. C'est notre opinion, et c'est ce pour quoi nous nous battons.

Le débat est donc relancé sur la question de savoir si oui ou non Google se sucre grâce au contenu des webmasters qui font le web. Et si Google devrait reverser une partie de ses bénéfices gigantesque sous quelque forme que ce soit à la communauté des webmasters. La réputation de Google-Watch est parfois controversée, et certains arguments tels que ceux développés par Philipp Lenssen concernant cette affaire peuvent être recevables : la différence, explique-t-il, est que Google prend en considération le fichier robots.txt lors de ses crawls, ce que ne fait pas Scroogle avec le fichier robots de Google qui interdit l'indexation de ses résultats. En tout cas, certains imaginent déjà comment ils vont pouvoir utiliser ce script...