Géolocalisation et information géographique

Je l’avais promis il y a quelques temps dans un précédent billet, je vais évoquer la géolocalisation sur Wikipédia. Dans un premier temps, il m’apparait important de différencier deux choses : d’une part l’information géographique et d’autre part la géolocalisation.

Information géographique

L’information géographique c’est donner aux lecteurs des informations d’ordre géographique à propos du sujet d’un article. Typiquement pour une ville (ou une montagne, un lac, une église, etc.), l’information géographique va être de dire dans quel pays se trouve cette ville et de lister les subdivisions administratives (région, département, canton, district, etc. ). Toujours dans le cadre de cette transmission d’information géographique on peut aussi donner la latitude et la longitude du lieu en question. Ainsi l’information géographique relative au mont Gerbier de Jonc est qu’il se trouve en France, dans la région Rhône-Alpes, dans le département de l’Ardèche à la latitude de 44° 50′ 40 » nord et la longitude de 4° 13′ 12 » est. Évidement, la latitude et la longitude sont assez peu parlantes en texte brut, mais il s’agit tout de même d’une information géographique. Cette information brute peut être utile aux lecteurs mais aussi pour des extractions de données.

Information géographique relative au mont Gerbiec de Jonc
Information géographique relative au mont Gerbiec de Jonc

L’utilité du couple latitude-longitude est bien-sûr plus grande si cette information géographique est dynamique. Ainsi sur Wikipédia, cette information apparait toujours de façon dynamique. Le lecteur a toujours accès à la lecture de la latitude et de la longitude, mais s’il clique sur ces chiffres il peut faire apparaitre un point sur une carte aux coordonnées spécifiées. Ainsi, par un coup d’œil il contextualise rapidement ce point dans un environnement. D’ailleurs, je ne crois pas me souvenir que sur Wikipédia nous n’ayons jamais  donné la latitude et la longitude qu’en mode brut.

Ce point sur une carte, simple et efficace.
Ce point sur une carte, simple et efficace.

Géolocalisation

On vient naturellement de glisser de la simple information géographique à la géolocalisation. Par la présence de ce dynamisme on vient de positionner le sujet de notre article dans l’espace (ou plutôt le plan, parce qu’on ne gère pas – encore – l’altitude). Comme on vient de le montrer la principale force de la géolocalisation c’est de pouvoir offrir rapidement au lecteur cette position sur une carte.

Néanmoins, ce n’est pas le seul autre point intéressant qu’offre la géolocalisation. Positionner un objet sur une carte, c’est aussi pouvoir positionner cet objet et tous ces semblables sur une même carte. Ainsi, il m’est possible de visualiser sur une carte le mont Gerbier de Jonc en compagnie d’autres sommets du Massif-Central.

Carte dynamique avec les articles de Wikipédia sur des sommets du Massif-Central.
Carte dynamique avec les articles de Wikipédia sur des sommets du Massif-Central.

Ici la géolocalisation de l’ensemble de ces articles permet de les positionner les uns par rapport aux autres. D’en découvrir un proche d’un autre que nous connaissions et ainsi d’aller en lire l’article. Je suis désolé d’avoir utilisé Google Maps pour cette illustration mais j’ai renoncé à Open Street Map après 5 tentatives infructueuses pour charger ma carte. De toutes façons, visuelement je préfère le rendu de GMaps à celui d’OSM. ;-p

Pour aller plus encore dans l’utilité de la géolocalisation, il y a aussi maintenant des applications fonctionnant sur des supers tels smartphone ou tablette qui utilisent votre positionnement géographique pour vous inviter à lire des articles dans votre environnement proche. Ainsi, vous vous promenez dans une ville riche en histoire. Vous vous approchez d’un monument historique votre smartphone peut vous proposer la lecture ou même la synthèse vocale du contenu de l’article relatif au monument se trouvant devant vous. Le partage de la connaissance – un des buts premiers de Wikipédia – est assez palpable ici.

Information géographique et géolocalisation, pas toujours synonymes

De fait, la géolocalisation découle assez naturellement de l’information géographique donnée dans un article. Mais cette dernière n’induit pas toujours une géolocalisation. Exemples …

Le cas des articles concernant des sujets linéaires (cours d’eau, fortifications d’une cité, autoroutes, etc) ne sont pour l’instant pas correctement géolocalisables. Comme on l’a vu précédemment la géolocalisation c’est affecter à l’article un point, c’est-à-dire un infiniment petit. Dans le cas d’un cours d’eau quel point choisir pour géolocaliser l’article ? Il est évident qu’il n’existe aucune réponse. Je vais rester sur ma thématique mont Gerbier de Jonc et prendre exemple sur la Loire. L’article actuel donne deux informations géographiques dynamiques : la source et l’embouchure.

Informations géographiques relatives à la Loire.
Informations géographiques relatives à la Loire.

Il existe quelques variantes pour les cours d’eau à plusieurs sources, sans embouchures etc. On se base sur les points importants du cours d’eau.

Pour la Loire seuls deux positionnements sont possibles
Pour la Loire seuls deux positionnements sont possibles

Sur cette carte dynamique on voit bien le manque d’information entre la source et l’embouchure. En conséquence, l’infobox relative aux cours d’eau n’offre que ces informations géographiques sans faire de géolocalisation. L’article sur la Loire n’est pas géolocalisé, au sens que si vous extrayez les données de Wikipédia par positionnement des articles vous n’aurez pas la Loire. Les infobox sur les cours d’eau sont dénuées du fameux modèle {{coord}} de géolocalisation.

Voilà un exemple bien concret de la différence entre information géographique et géolocalisation. Cet exemple hydrologique est bien entendu extensible aux murs de fortifications (Mur d’Hadrien), aux canaux (Canal du Midi), etc.

Ici on touche à une limitation technique du logiciel sur lequel tourne Wikipédia (MediaWiki). En effet, le jour où MediaWiki acceptera les fichiers de type KML, il sera tout-à-fait possible de géolocaliser l’article relatif au boulevard périphérique de Paris sur l’ensemble de son parcours ou même l’article relatif à Paris sur l’ensemble du territoire occupé par la commune.

Conclusion

Aujourd’hui la géolocalisation c’est offrir une information supplémentaire aux lecteurs et donner à cette information une certaine interactivité. Une interactivité que les encyclopédiques classiques, celles sur papier, ne pouvaient même pas imaginer. C’est aussi là que Wikipédia se différencie de l’idée générale qui est (était ?) associée à encyclopédie.

Actuellement, les besoins des contributeurs sont aux limites de ce que le logiciel MediaWiki permet de faire. Je suis d’un naturel optimiste, je me dis que bientôt on pourra encore aller plus loin.

Publicités

Monuments historiques et géolocalisation

Un jour je ferai surement un billet sur le pourquoi de la géolocalisation des articles sur Wikipédia. Il y a beaucoup à en dire. Aujourd’hui parlons particulièrement de celle des monuments historiques situés en France.

Au printemps dernier, avec l’aide de Xic667, il a été codé un bout de code pour générer des catégories d’articles ne possédant pas de géodonnées. Cette fonctionnalité a été mise en place dans les types d’articles (par les infoboxs) pour lesquels une géolocalisation peut paraitre pertinente : typiquement un immeuble, un lac, une montagne, etc. Cette méthode se base sur les infoboxs, elle a donc le défaut d’omettre les articles qui en sont dénués. Mais pour avoir beaucoup parcouru le sujet, il ne doit plus en avoir beaucoup dans ce cas.

Au printemps, nous avons obtenu plusieurs milliers d’articles pour lesquels la géolocalisation était pas ou mal faite, parmi eux plus de 1000 monuments historiques. Je suis même incapable de dire le nombre exact. En effet, pour dresser une liste des seuls monuments historiques non géolocalisés il faut utiliser un outil pour croiser la catégorie des articles pas géolocalisés et celle des articles des monuments historiques. Cet outil cesse son décompte quand la requête dépasse les 1000 réponses. C’est la réponse que nous avions pendant plusieurs mois, alors même que nous localisions des articles régulièrement.

Le 15 août dernier j’avais fait un décompte précis par région française, j’avais abouti à un total de 1151 monuments historiques non localisés. Beaucoup de travail en perspective. Avec l’aide de nombreux contributeurs (Remi, Coyote, Sebleouf, Pleclown, Otourly,etc.), la liste a été réduite, mais aussi augmentée ! Les monuments historiques de l’Ain, de la Haute-Savoie et du Maine-et-Loire ont été créés pendant ce temps soit 800 ou 900 articles en plus.

Ce matin cette liste ne compte plus que 39 articles. Les derniers articles sont les plus durs à géolocaliser. Ce sont ceux pour lesquels plusieurs contributeurs ont déjà fait des recherches mais sans résultat. Je sais que pour certains des emails ont été envoyés aux mairies en question afin d’obtenir un petit peu d’aide. Nous attendons les réponses.

Autre point, si un article ne peut être localisé il est placé dans une catégorie dédiée à cela. Il est très intéressant de noter qu’il y a seulement 3 articles concernant des monuments historiques qui ont été mis là.

Petit bilan, sur environ 8000 monuments historiques situés en France, il y a seulement une petite centaine qui ne sont pas localisés. J’ai quelque peu grossi les 39 + 3, en considérant quelques articles du thème sans infobox. Un joli travail d’effectué. Merci à ceux qui y ont pris part.

Suite du billet précédent

Je faisais remarquer dans le billet précédent qu’une erreur revenant régulièrement consistait à inverser latitude et longitude dans l’infobox d’un article Wikipédia. Je suis allé un peu plus loin dans ma démarche. J’ai pris l’outil de Myst. Je lui ai demandé de me sortir une liste d’article en prenant un point au milieu de la France mais en inversant la latitude et la longitude.

Comme prévu on a pas mal d’article sur la corne de l’Afrique, éthiopie, somalie, etc. Mais comme je m’y attendais je suis aussi tombé sur des articles concernant la France : Villeneuve-sous-CharignySaint-Sulpice-Laurière, etc.

Là encore, une bonne idée de maintenance. Vous prenez la zone géographique qui vous intéresse, vous inversez la latitude et la longitude et vous mettez ça dans l’outil de Myst. Assurément vous y trouverez des articles vous concernant mais localiser à plusieurs milliers de kilomètres du bon endroit.

A vous de jouer.

 

 

 

Chercher l’erreur.

Je contribue pas mal sur le projet gélocalisation de Wikipédia. Cela consiste souvent à localiser des objets qui ne le sont pas. De temps en temps je varie les plaisirs en détectant des objets mal géolocalisés. Une méthode consiste à servir du modèle {{KML}} dans une catégorie précise. Petit exemple, je prends les églises classées monuments historiques en France. Je demande de les voir sur une carte, ça donne ça :

Hum ?

Voilà donc une jolie église aux Monuments historiques français en pleine corne de l’Afrique. En fait, il s’agit d’une petite erreur assez fréquente. Le contributeur avait les bonnes données, mais il a inversé latitude et longitude.

Bref, n’hésitez pas à vous servir de {{KML}} pour faire de la détection d’erreur : objet mal localisés. Et faites attention à ne pas confondre latitude et longitude dans les infoboxs.