Dostali jsme se do závěrečné fáze přípravy korpusu ChroMat. I když Augustýna budeme nahrávat a přepisovat ještě asi rok, cítíme, že je zároveň čas začít konkrétně plánovat nový projekt, kterým bude korpus dětí s vývojovou poruchou řeči.
Půjčujeme do rodin kamery a diktafony a necháváme nahrávat komunikaci malých dětí s jejich rodiči.
V každé rodině necháváme nahrávat dlouhodobě v pravidelných intervalech a získáváme tak obrázek o jazykovém vývoji daného dítěte, ale i o tom, jak na něj mluví dospělí.
Nahrávky přepisujeme a přepisy anonymizujeme. Děti pak mají v přepisech pseudonymy a další citlivé údaje se odstraňují nebo nahrazují pseudoúdaji.
Anonymní přepisy zveřejňujeme, aby je mohl analyzovat každý, kdo má zájem. Sami dál pracujeme na novějších verzích korpusů (např. s morfologickou anotací) i na jejich analýzách.
Pro přepis používáme systém CHAT, standardní formát přepisu mluvené komunikace vyvinutý speciálně pro potřeby přepisu dětské řeči, publikovaný poprvé v roce 1990 a od té doby pravidelně a často aktualizovaný (MacWhinney, 2000). Úplný manuál CHATu je velice obsáhlý a je přímo určený k tomu, aby si z něj každý výzkumník vybral jen ty prvky, které potřebuje pro svůj záměr. Při přepisu pro CoCzeFLA tak pracujeme s vlastní verzí Manuálu (v3.1 – nejnovější; v2.0; v1.0) a speciálně se zaměřujeme na anotaci (1) dysfluencí v řeči (opakování, falešných začátků, sebeoprav), (2) citoslovcí, (3) morfologických inovací, chyb a idiosynkratických výrazů. Používáme také několik vlastních kódů v nadstavbě nad základním systémem CHATu, a to kódy pro speciální užití citoslovcí ve funkci predikátu (uděláš ham?), v nominální funkci (podívej, támhle je hafhaf.) a v atributivní funkci (pozor, ta pánev je auau!) a kód pro výskyt cizích slov (podívej, to je bunny.). Tyto jmenované jevy tedy v přepisu anotuje ručně přímo přepisující. Naopak lemmatizace a další morfologická anotace korpusů není úkolem přepisujících, a provádí se následně (viz níže).
Kromě Manuálu máme pro přepisující, ale i pro badatele k dispozici stručný přehled používaných kódů: CHAT pro CoCzeFLA. V něm si zájemci dohledají jak kódy užívané při aktuální práci na přepisech pro ChroMat, tak i kódy ve stavu, v jakém jsou užité v již publikovaných verzích korpusu Chroma.
Věk dětí je vždy uváděn ve formátu R;MM(.DD).
Každou nahrávku vždy přepíše jedna vyškolená osoba a předá ji druhé osobě ke kontrole. Zkontrolovaná verze se vrací zpět k původnímu přepisujícímu, který ji znovu přečte, dočistí a vytvoří finální verzi. Na závěr projde přepis formální automatickou kontrolou v programu CLAN, který si rozumí s formátem CHAT a má pro tento účel speciální funkci.
Reference:
MacWhinney, B. (2000). The CHILDES project: Tools for analyzing talk. 3rd edition. Mahwah, NJ: Lawrence Erlbaum Associates.
Od verze 2023.04 korpusu Chroma jsou CoCzeFLA korpusy morfologicky anotované a umožňují tak automatické vyhledávání podle lemmat, slovních druhů nebo konkrétních morfologických kategorií. Anotace vychází z automatické analýzy provedené pomocí nástroje MorphoDiTa. Výstup z MorphoDiTy je následně transformován do %mor řádku vyhovujícího přepisovacímu systému CHAT a analyzovatelného pomocí softwaru CLAN. Formát %mor řádku je k vidění níže v ukázce anotovaného přepisu Julie (korpus Chroma). Automatická anotace dětských řádků ve verzi Chroma 2023.07 byla kompletně ručně zkontrolována, zatímco řádky dospělých jsou prozatím ponechány v automatické podobě. Z toho vyplývají případné odlišnosti v anotaci, např. hodiny na dětském řádku v ukázce níže jsou anotované jako n:pt, pomnožné substantivum, na řádku MOT nikoliv.
Detailní informace k morfologické anotaci CoCzeFLA a jejímu formátu jsou k dispozici v Uživatelském manuálu.
a
a
a
*CHI: +< je tam hodiny [*] .
%mor: v|být-3&SG&ind&pres&akt&impf-err adv:pro|tam n:pt|hodiny-1&PL&F .
%pho: je tam hodiny .
%err: je = jsou .
(…)
*MOT: jsou tam hodiny .
%mor: v:aux/cop|být-3&PL&ind&pres&akt&impf adv:pro|tam n|hodina-1&PL&F .
%pho: jsou tam hodiny .
%com: opravuje CHI .
*CHI: jsou tam .
%mor: v|být-3&PL&ind&pres&akt&impf adv:pro|tam .
%pho: sou tam .
Jádro týmu CoCzeFLA tvoří koordinátorky Anna Chromá a Klára Matiasovitsová. V pozici zkušenějšího konzultanta figuruje od počátku projektu prof. Filip Smolík. V klíčové oblasti přepisu a revizí se projekt opírá o tým pregraduálních studijících odměňovaných stipendiem z FF UK, eventuálně si u nás plnících povinné praxe.