Nomenclature
Le nom des fichiers encode tous les niveaux de distinctions du processus de collecte, la session, le participant concerné, le type de données produites (tâche), la langue des productions (où
nécessaire), et enfin la date de collecte.

Liste d’abbréviations :
- ARG : Discours Argumentatif
- ENT : Entretien bilingue semi-dirigé
- RF : Récit de Fiction
- PVQ : Portrait Value Questionnaire
- AR : Arabe Syrien
Dans un explorateur de fichiers, ou dans l’outil d’Ortolang, il est donc possible de filtrer par exemple :
- Toutes les productions exclusivement en arabe de la première session en cherchant dans le dossier principal « T1 AR_ »
- Tous les entretiens bilingues du participant SY21 en cherchant « SY21 ENT»
Par format
Taille totale (nombre de mots : Journal 8437 mots, heures d’audio, nombre de fichiers) 25 heures d’enregistrement PRéPILOTE
544 enregistrements vidéos aux formats .mov et .mp4
Pour chaque participant aux trois sessions :
- 2 récits de fictions (en français L2 puis en arabe syrien L1),
- 2 discours argumentatifs (en français L2 puis en arabe syrien L1) et un entretien bilingue semidirigé (deux entretiens au temps 3).PRéPILOTE
| T1 | T2 | T3 |
| 5 Recorded Tasks*36 participants = 181 vidéos | 5 Recorded Tasks*33 participants =165 Vidéos | 6 Recorded Tasks*33 participants =198 Vidéos |
279 documents textes scannés .pdf PRéPILOTE
| T1 | T2 | T3 | Atelier de rédaction Journal |
| 2 fichiers scannés*36 participants =72 Vidéos | 2 fichiers scannés*33 participants =66 Vidéos | 2 fichiers scannés*33 participants =66 Vidéos | 75 fichiers scannés |
81 fichiers de transcription au format CHAT .cha 81 réponses Journal_Socialisation
| T1 | T2 | T3 | Atelier de rédaction Journal |
| 81 réponses transcrites |
Par session

Informations Démographiques
Les données ont été collectées en 3 sessions sur une période d’environ 10 mois auprès de 36 participants au temps 1, dont 33 ont également participé aux temps 2 et 3. Ces sessions ont pris place sur 3 sites de la Région : Toulouse (n=18), Montpellier(n=15) et Perpignan (n=3, seulement au temps 1).
Tous les participants ont reçu un pseudonyme ainsi qu’un code numérique de SY01 à SY36.
Une deuxième procédure a été utilisée avec un sous-groupe de 10 apprenants débutants volontaires sur le site toulousain dont 6 étaient assidus à la plupart des ateliers de rédaction.
Voir le tableau ci-dessous pour les détails démographiques par session de collecte de données.
Tableau 1: Données démographiques des participants du projet SOFRA

Conditions de recueil
Voir ci-dessus pour les périodes de collecte associées à chaque étape de la constitution de ce corpus.
Le déroulé d’une session suivait cet ordre :
- Instructions
- Visionnage de l’extrait de film
- Récit de fiction en Français L2
- Récit de fiction en Arabe syrien L1
- Discours argumentatif en Français L2
- Discours argumentatif en Arabe syrien L1
- Entretien bilingue semi-dirigé
a. Entretien numéro 2 (seulement au temps 3)