Après le big data, voici le small data

Qu’est-ce que le Small Data ?

Le small data est l’utilisation d’un ensemble limité de données afin d’en extraire une information pertinente. D’autres termes sont possibles : le low data, les microdonnées,… Je le définis ainsi par opposition au Big data francisé en Mégadonnées

Les données d’observation d’un phénomène peuvent être peu nombreuses pour de multiples raisons :

  • elles coûtent chères (destruction de pièces de production pour le contrôle qualité,…)
  • elles sont d’accès difficile (dans le nucléaire, exposition à des radiations, profondeur des océans,…)
  • les phénomènes examinés sont rares (fréquence exceptionnel, coût exceptionnel,…)

On les alors croit, à tort, inexploitables car :

  • les outils statistiques ne sont pas applicables
  • leur qualité est parfois médiocre, autrement dit l’incertitude concernant l’observation est forte

Quel outil pour traiter les données rares ?

Cet outil nécessite :

  • de tenir compte de l’ensemble de l’information accessible, toutes les données disponibles
  • de pouvoir s’adapter à la production de nouvelles données
  • de tenir compte de l’incertitude entourant les données disponibles
  • de ne pas être dépendant de résultats asymptotiques
  • l’absence d’hypothèses injustifiées dans la production de résultats, autrement dit une démarche scientifique réelle et réaliste

Cet outil c’est la théorie des probabilités. Enfin « théorie », c’est surtout ses applications pratiques qui vont nous permettre de dégager une interprétation des observations la plus correcte possible sans altérer l’information.

Ainsi les résultats sont souvent sous la forme d’une probabilité qui traduit la prise en compte l’incertitude de nos données.

Ces résultats seront d’autant plus pertinents s’ils sont robustes (faiblement sensible à une modification des paramètres d’entrée). Si aucune conclusion n’est possible, cela reste une information intéressante qui peut nous permettre de savoir rendre les données plus utiles à l’avenir (dans la manière de les collecter par exemple). Dernier point important, la compréhension du phénomène n’est pas nécessaire pour produire des résultats. Toutefois, il est possible d’intégrer une vue d’expert qui aura d’autant plus d’importance que le phénomène est mal observé.

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

%d blogueurs aiment cette page :