Corpus SOFRA

Nomenclature

Le nom des fichiers encode tous les niveaux de distinctions du processus de collecte, la session, le participant concerné, le type de données produites (tâche), la langue des productions (où
nécessaire), et enfin la date de collecte.

Liste d’abbréviations :

  • ARG : Discours Argumentatif
  • ENT : Entretien bilingue semi-dirigé
  • RF : Récit de Fiction
  • PVQ : Portrait Value Questionnaire
  • AR : Arabe Syrien

Dans un explorateur de fichiers, ou dans l’outil d’Ortolang, il est donc possible de filtrer par exemple :

  • Toutes les productions exclusivement en arabe de la première session en cherchant dans le dossier principal « T1 AR_ »
  • Tous les entretiens bilingues du participant SY21 en cherchant « SY21 ENT»

Par format

Taille totale (nombre de mots : Journal 8437 mots, heures d’audio, nombre de fichiers) 25 heures d’enregistrement PRéPILOTE

544 enregistrements vidéos aux formats .mov et .mp4

Pour chaque participant aux trois sessions :

  • 2 récits de fictions (en français L2 puis en arabe syrien L1),
  • 2 discours argumentatifs (en français L2 puis en arabe syrien L1) et un entretien bilingue semidirigé (deux entretiens au temps 3).PRéPILOTE
T1T2T3
5 Recorded Tasks*36 participants
= 181 vidéos
5 Recorded Tasks*33
participants
=165 Vidéos
6 Recorded Tasks*33
participants
=198 Vidéos

279 documents textes scannés .pdf PRéPILOTE

T1T2T3Atelier de rédaction
Journal
2 fichiers scannés*36
participants
=72 Vidéos
2 fichiers scannés*33
participants
=66 Vidéos
2 fichiers scannés*33
participants
=66 Vidéos
75 fichiers scannés

81 fichiers de transcription au format CHAT .cha 81 réponses Journal_Socialisation

T1T2T3Atelier de rédaction
Journal
81 réponses transcrites

Par session

Informations Démographiques

Les données ont été collectées en 3 sessions sur une période d’environ 10 mois auprès de 36 participants au temps 1, dont 33 ont également participé aux temps 2 et 3. Ces sessions ont pris place sur 3 sites de la Région : Toulouse (n=18), Montpellier(n=15) et Perpignan (n=3, seulement au temps 1).
Tous les participants ont reçu un pseudonyme ainsi qu’un code numérique de SY01 à SY36.
Une deuxième procédure a été utilisée avec un sous-groupe de 10 apprenants débutants volontaires sur le site toulousain dont 6 étaient assidus à la plupart des ateliers de rédaction.
Voir le tableau ci-dessous pour les détails démographiques par session de collecte de données.

Tableau 1: Données démographiques des participants du projet SOFRA

Conditions de recueil

Voir ci-dessus pour les périodes de collecte associées à chaque étape de la constitution de ce corpus.

Le déroulé d’une session suivait cet ordre :

  1. Instructions
  2. Visionnage de l’extrait de film
  3. Récit de fiction en Français L2
  4. Récit de fiction en Arabe syrien L1
  5. Discours argumentatif en Français L2
  6. Discours argumentatif en Arabe syrien L1
  7. Entretien bilingue semi-dirigé
    a. Entretien numéro 2 (seulement au temps 3)