- Inscrit
- 11/10/22
- Messages
- 4 864
Salut ! Je parcourais une bibliographie et je suis tombée sur ce "dataset" : les jeunes et les drogues.
Il s'agit d'une étude menée par questionnaire (elle date de 2015) et "dataset", ça signifie qu'on a accès aux données (quantitatives), mais pas à leur analyse.
J'imagine que c'est publié là dans un principe de sciences ouvertes.
L'intérêt direct pour nous en tant qu'usagers est faible, parce que ça date de 2015 et que l'étude consiste juste en un survol d'opinions et d'habitude de jeunes de l'union européenne. Néanmoins je me suis dit que c'était une bonne occasion de voir comment on peut accéder / manipuler ce type de donnée quand on cherche de l'information. Je me suis concentrée sur la question qui moi m'intéressait, à savoir : quelles sont les sources d'information sur les drogues.
1) on va sur la page et on clique sur le lien de téléchargement
2) on entre ans le dossier zip ainsi téléchargé, et on ouvre le document (il passe très bien dans LibreOfficeCalc)
3) Le document qui s'ouvre est un "classeur", et il s'ouvre à la première "feuille". En bas de l'écran on a la liste des feuilles. On voit donc qu'on est dans l'index, qui contient en fait la liste des questions. Maintenant, il faut s'y repérer pour accéder aux réponses qui m'intéressent.
Il y a une question par ligne (1, 2, 3...). On voit que certaines questions font des arborescences. Par exemple, la question 9 prend les lignes 18 à 23. Elle est formulée une première fois dans la colonne B :
Moi la question qui m'intéresse, c'est la question 1. Pour accéder aux réponses, je peux cliquer sur l'hyperlien dans la cellule A1, ou aller à la feuille appelée Q1 en bas de la page.
4) La feuille qui s'ouvre contient un tableau de données brutes.
La question était donc : "Si vous souhaitiez des informations sur les drogues illicites et l’usage de la drogue en général, à qui vous adresseriez-vous ?"
Les lignes sont nommées d'après les réponses possibles : ainsi, la ligne 35 correspond à la réponse "Internet". C'est ce qui m'intéresse.
Les colonnes sont nommées d'après qui a répondu. Ce qui, ce sont des groupes délimités par les réponses à d'autres questions. Par exemple, les répondants ont dû indiquer s'ils étaient un homme ou une femme. Selon leur réponse, ils sont regroupés dans la colonne D ou E.
La donnée la plus simple : cellule C35, parmi tous les répondants, 59% ont répondu qu'ils utiliseraient Internet pour se renseigner. On voit que c'est bien davantage que les autres réponses possibles (même si elles n'apparaissent pas toutes dans la capture d'écran). En 2015, Internet était la première source d'information sur les drogues pour les 15-24 ans dans l'union européenne.
Ainsi, les cellules m'indiquent "combien, parmi tels répondants, ont donné telle réponse". Il faut lire : "tant de pourcents de colonne ont répondu ligne". Par exemple, 63% des 22-24 ans ont répondu "Internet" (contre 53% des 15-18, ce qui montre que le recours à Internet augmente avec l'âge).
Une erreur serait de lire en sens inverse : "tant des personnes qui ont répondu ligne sont des colonne". Ainsi, on serait tentés de lire que 63% des personnes qui utilisent internet ont 22-24 ans, mais non.
En parcourant ce document, on peut voir qu'il n'y a pas de différence de sexe dans le recours à Internet à s'informer sur les drogues. Mais ce recours augmente avec le niveau d'étude, le fait de consommer en teuf plutôt qu'avec ses seuls amis, l'usage d'Internet, le fait de posséder un téléphone portable, et ce recours baisse drastiquement quand la personne a reçu des infos sur les NPS de la part de sa famille ou de la police (plutôt que ses amis ou les médias). Il est aussi plus bas quand la personne a acheté des NPS dans un magasin spécialisé plutôt qu'en ligne.
Voilà, j'espère que ce tuto très basique rendra les lecteurs moins timides face aux classeurs de données brutes sur lesquels on tombe parfois en faisant des recherches. C'est moins agréable à lire que les "rapports analytiques" où ces données sont analysées par un humain qui en fait une synthèse, mais c'est aussi plus transparent et ça participe à la science ouverte
Il s'agit d'une étude menée par questionnaire (elle date de 2015) et "dataset", ça signifie qu'on a accès aux données (quantitatives), mais pas à leur analyse.
J'imagine que c'est publié là dans un principe de sciences ouvertes.
L'intérêt direct pour nous en tant qu'usagers est faible, parce que ça date de 2015 et que l'étude consiste juste en un survol d'opinions et d'habitude de jeunes de l'union européenne. Néanmoins je me suis dit que c'était une bonne occasion de voir comment on peut accéder / manipuler ce type de donnée quand on cherche de l'information. Je me suis concentrée sur la question qui moi m'intéressait, à savoir : quelles sont les sources d'information sur les drogues.
1) on va sur la page et on clique sur le lien de téléchargement
2) on entre ans le dossier zip ainsi téléchargé, et on ouvre le document (il passe très bien dans LibreOfficeCalc)
3) Le document qui s'ouvre est un "classeur", et il s'ouvre à la première "feuille". En bas de l'écran on a la liste des feuilles. On voit donc qu'on est dans l'index, qui contient en fait la liste des questions. Maintenant, il faut s'y repérer pour accéder aux réponses qui m'intéressent.
Il y a une question par ligne (1, 2, 3...). On voit que certaines questions font des arborescences. Par exemple, la question 9 prend les lignes 18 à 23. Elle est formulée une première fois dans la colonne B :
Puis dans la colonne C, elle est déclinée selon plusieurs produits. Ainsi la question Q9.4, ligne 21, demande s'il faudrait réglementer l'héroïne.Q9.1 La vente de drogues telles que le cannabis, la cocaïne, l’ecstasy et l’héroïne est officiellement interdite dans tous les Etats Membres de l’Union Européenne. La vente de substances légales telles que l’alcool et le tabac n’est pas interdite mais réglementée dans tous les pays de l’Union Européenne, ce qui signifie, par exemple, qu’il y a un âge minimum pour l’achat, qu’il existe des limites de concentration des composants actifs ou que la vente n’est autorisée que dans des magasins spécialisés et des pharmacies. Pensez-vous que les substances suivantes devraient continuer à être interdites ou être interdites ou qu’elles devraient être réglementées ?
Moi la question qui m'intéresse, c'est la question 1. Pour accéder aux réponses, je peux cliquer sur l'hyperlien dans la cellule A1, ou aller à la feuille appelée Q1 en bas de la page.
4) La feuille qui s'ouvre contient un tableau de données brutes.
La question était donc : "Si vous souhaitiez des informations sur les drogues illicites et l’usage de la drogue en général, à qui vous adresseriez-vous ?"
Les lignes sont nommées d'après les réponses possibles : ainsi, la ligne 35 correspond à la réponse "Internet". C'est ce qui m'intéresse.
Les colonnes sont nommées d'après qui a répondu. Ce qui, ce sont des groupes délimités par les réponses à d'autres questions. Par exemple, les répondants ont dû indiquer s'ils étaient un homme ou une femme. Selon leur réponse, ils sont regroupés dans la colonne D ou E.
La donnée la plus simple : cellule C35, parmi tous les répondants, 59% ont répondu qu'ils utiliseraient Internet pour se renseigner. On voit que c'est bien davantage que les autres réponses possibles (même si elles n'apparaissent pas toutes dans la capture d'écran). En 2015, Internet était la première source d'information sur les drogues pour les 15-24 ans dans l'union européenne.
Ainsi, les cellules m'indiquent "combien, parmi tels répondants, ont donné telle réponse". Il faut lire : "tant de pourcents de colonne ont répondu ligne". Par exemple, 63% des 22-24 ans ont répondu "Internet" (contre 53% des 15-18, ce qui montre que le recours à Internet augmente avec l'âge).
Une erreur serait de lire en sens inverse : "tant des personnes qui ont répondu ligne sont des colonne". Ainsi, on serait tentés de lire que 63% des personnes qui utilisent internet ont 22-24 ans, mais non.
En parcourant ce document, on peut voir qu'il n'y a pas de différence de sexe dans le recours à Internet à s'informer sur les drogues. Mais ce recours augmente avec le niveau d'étude, le fait de consommer en teuf plutôt qu'avec ses seuls amis, l'usage d'Internet, le fait de posséder un téléphone portable, et ce recours baisse drastiquement quand la personne a reçu des infos sur les NPS de la part de sa famille ou de la police (plutôt que ses amis ou les médias). Il est aussi plus bas quand la personne a acheté des NPS dans un magasin spécialisé plutôt qu'en ligne.
Voilà, j'espère que ce tuto très basique rendra les lecteurs moins timides face aux classeurs de données brutes sur lesquels on tombe parfois en faisant des recherches. C'est moins agréable à lire que les "rapports analytiques" où ces données sont analysées par un humain qui en fait une synthèse, mais c'est aussi plus transparent et ça participe à la science ouverte