SemantiCity

Traitement et harmonisation des données : la bonne recette

Une analyse urbaine est une longue chaine de traitement de l'information, partant de de la collection des données (sur le terrain, import de bases de données, crowd-sourcing...) à la visualisation des résultats intégré dans un modèle virtuel de villeL'information perdue ne pouvant se recréer, la qualité des résultats est limitée par le maillon le plus faible de cette chaîne. S'il est un maillon particulièrement critique, c'est bien le traitement et l'harmonisation des données, qui suit la phase de collection des données.
Mon ami Piergiorgio de Ferrara aime à comparer cette étape à une recette de cuisine. Je me permets de lui emprunter cette savoureuse analogie.

Extrait de la recette de la tarte aux poireaux

Une recette de cuisine est une méthodologie. Elle liste les ingrédients nécessaires, précisant leur quantité et unité de mesures, et détaille comment ceux-ci doivent être préparés avant d'être intégré les uns aux autres.

Les poireaux achetés sur le marché doivent être coupés en quatre dans la longueur, puis lavés, puis coupés en troncon de 2cm de long avant d'être mis dans une casserole adaptée pour réaliser une tarte aux poireaux.

De même, les données brutes collectées doivent être rendus utilisables dans l'analyse urbaine, transformées et éventuellement corrigées pour correspondre au format attendu. L'utilisation de code-lists spécifiant les valeurs acceptables des paramètres textuels (fonction du bâtiment, type de propriétaire...) a ainsi un rôle important dans l'harmonisation de données. Pour les paramètres numériques, une uncertitude maitrisée est primordiale à la qualité des données.

Des éléments pré-préparés (kub Maggy) permettent de remplacer les ingrédients manquants à moindre frais. Exactement comme les librairies de données, rassemblant des données de benchmarking qui seront utilisés par défault si l'étape de collection de données n'a pas permis de fournir pleinement les données requises pour l'analyse urbaine.
En plus des ingrédients nécessaires, des ingrédients additifs peuvent relever la saveur du plat (épices, copeaux de truffes!), tout comme les données optionelles, qui bien intégrés au traitement de données vont améliorer la précision et le réalisme des résultats.

Enfin, sans ustensiles de cuisine adaptés à la quantité et à la nature des ingrédients, point de salut. Les outils de traitement de données sont de même essentiels. Qu'ils soient commerciaux (FME) ou freeware/opensource (HALE), il y en a pour tous les goûts, pour toutes les bourses, plus ou moins robustes et aiguisés. Aussi faut-il savoir s'en servir: le cuisiner comme l'expert en traitement de données doit avoir l'expérience nécessaire, afin que rien ne soit laisser à l'improvisation.