Korpusy rané češtiny

Corpora of Czech as the First Language in Acquisition | CoCzeFLA

aktuality

Vypisujeme praxe! Hledáme stážisty i stipendisty, zejména na ruční kontroly automatických morfologických anotací na korpusu Chroma, příp. i na přepis pro vznikající korpus ChroMat. Kontaktujte nás 🙂

Hledáme dítě k novému nahrávání! Pro nové nahrávání hledáme rodinu s jedním prvorozeným dítětem. Děťátku by mělo být mezi 12 až 24 měsíci a mělo by teprve začínat s vlastní produkcí řeči (říkat pouze jednoslovné výpovědi). Máte-li zájem se do našeho nahrávání zapojit, ozvěte se nám!

Co děláme?

Půjčujeme do rodin kamery a diktafony a necháváme nahrávat komunikaci malých dětí s jejich rodiči.

V každé rodině necháváme nahrávat dlouhodobě v pravidelných intervalech a získáváme tak obrázek o jazykovém vývoji daného dítěte, ale i o tom, jak na něj mluví dospělí.

Nahrávky přepisujeme a přepisy anonymizujeme. Děti pak mají v přepisech pseudonymy a další citlivé údaje se odstraňují nebo nahrazují pseudoúdaji.

Anonymní přepisy zveřejňujeme, aby je mohl analyzovat každý, kdo má zájem. Sami dál pracujeme na novějších verzích korpusů (např. s morfologickou anotací) i na jejich analýzách.

Jak přepisujeme?

Pro přepis používáme systém CHAT, standardní formát přepisu mluvené komunikace vyvinutý speciálně pro potřeby přepisu dětské řeči, publikovaný poprvé v roce 1990 a od té doby pravidelně a často aktualizovaný (MacWhinney, 2000). Úplný manuál CHATu je velice obsáhlý a je přímo určený k tomu, aby si z něj každý výzkumník vybral jen ty prvky, které potřebuje pro svůj záměr. Při přepisu pro CoCzeFLA tak pracujeme s vlastní verzí Manuálu (v3.0 – nejnovější; v2.0; v1.0) a speciálně se zaměřujeme na anotaci (1) dysfluencí v řeči (opakování, falešných začátků, sebeoprav), (2) citoslovcí, (3) morfologických inovací, chyb a idiosynkratických výrazů. Používáme také několik vlastních kódů v nadstavbě nad základním systémem CHATu, a to kódy pro speciální užití citoslovcí ve funkci predikátu (uděláš ham?), v nominální funkci (podívej, támhle je hafhaf.) a v atributivní funkci (pozor, ta pánev je auau!) a kód pro výskyt cizích slov (podívej, to je bunny.). Tyto jmenované jevy tedy v přepisu anotuje ručně přímo přepisující. Naopak lemmatizace a další morfologická anotace korpusů není úkolem přepisujících, a provádí se následně (viz níže).

Kromě Manuálu máme pro přepisující, ale i pro badatele k dispozici stručný přehled všech používaných kódů. V něm si zájemci dohledají jak kódy užívané při aktuální práci na přepisech pro ChroMat, tak i kódy ve stavu, v jakém jsou užité v již publikovaných verzích korpusu Chroma.

Věk dětí je vždy uváděn ve formátu R;MM(.DD).

Každou nahrávku vždy přepíše jedna vyškolená osoba a předá ji druhé osobě ke kontrole. Zkontrolovaná verze se vrací zpět k původnímu přepisujícímu, který ji znovu přečte, dočistí a vytvoří finální verzi. Na závěr projde přepis formální automatickou kontrolou v programu CLAN, který si rozumí s formátem CHAT a má pro tento účel speciální funkci. 

Reference:
MacWhinney, B. (2000). The CHILDES project: Tools for analyzing talk. 3rd edition. Mahwah, NJ: Lawrence Erlbaum Associates.

Morfologická anotace

Od verze 2023.04 korpusu Chroma jsou CoCzeFLA korpusy morfologicky anotované a umožňují tak automatické vyhledávání podle lemmat, slovních druhů nebo konkrétních morfologických kategorií. Anotace vychází z automatické analýzy provedené pomocí nástroje MorphoDiTa. Výstup z MorphoDiTy je následně transformován do %mor řádku vyhovujícího přepisovacímu systému CHAT a analyzovatelného pomocí softwaru CLAN. Formát %mor řádku je k vidění níže v ukázce anotovaného přepisu Julie (korpus Chroma). Automatická anotace dětských řádků korpusu Chroma byla kompletně ručně zkontrolována, zatímco řádky dospělých jsou prozatím ponechány v automatické verzi. Z toho vyplývají případné odlišnosti v anotaci, např. hodiny na dětském řádku v ukázce níže jsou anotované jako n:pt, pomnožné substantivum, na řádku MOT nikoliv.

Detailní informace k morfologické anotaci CoCzeFLA a jejímu formátu jsou k dispozici v Uživatelském manuálu.

Ukázka přepisu z korpusu ChroMat, Felix, 2;00
POUZE HLAVNÍ ŘÁDKY

@Begin
*CHI: jé !
*MOT: jé .
*MOT: teď to pasuje, viď ?
*CHI: pasuje to .
*MOT: dáš mi taky ?
*CHI: na .
*CHI: ňam, dobrý .
*MOT: děkuju .
*CHI: ty .
*CHI: dobrý .
@End
Ukázka přepisu z korpusu ChroMat, Felix, 2;00
HLAVNÍ ŘÁDKY VČ. KÓDŮ

@Begin
*CHI: jé@i ! # citoslovce
*MOT: jé@i . # citoslovce
*MOT: teď to pasuje, viď ?
*CHI: pasuje to .
*MOT: dáš mi taky ?
*CHI: na@i . # citoslovce
*CHI: ňam@i, dobrý . # citoslovce
*MOT: děkuju .
*CHI: ty [*] . # chyba (err)
%err: reversal (2sg = 1sg) . # komentář k chybě: CHI používá "ty" pro označení sebe sama
*CHI: dobrý .
@End
Ukázka přepisu z korpusu ChroMat, Felix, 2;00
KOMPLETNÍ PŘEPIS

@Begin
@Situation: skládají puzzle .
@Comment: CHI k dílku správně přiloží druhý .

*CHI: jé@i ! # citoslovce
%pho: jé .
*MOT: jé@i . # citoslovce
%pho: jé .
%com: napodobuje CHI .
*MOT: teď to pasuje, viď ?
%pho: teť to pasuje viť .
*CHI: pasuje to .
%pho: pašuje to .
%com: vstal, vybírá si z krabičky ovoce .
*MOT: dáš mi taky ?
%pho: dáš mi taky .
%com: posouvá mrak k ostatním obrázkům .
*CHI: na@i . # citoslovce
%pho: na .
%com: dává MOT do úst kousek, který chtěl sníst sám .
*CHI: ňam@i, dobrý . # citoslovce
%pho: ňam dobý .
%com: vrací se ke krabičce .
*MOT: děkuju .
%pho: děkuju .
%com: usměje se .
*CHI: ty [*] . # chyba (err)
%pho: ty .
%err: reversal (2sg = 1sg) . # komentář k chybě: CHI používá "ty" pro označení sebe sama
%com: vybírá ovoce pro sebe, sní kus banánu .
*CHI: dobrý .
%pho: dobý .
%com: zapéruje v kolenou .
@End
Previous
Next
Přehrát video

a

a

a

ukázka anotovaného přepisu z korpusu Chroma, Julie 2;03

*CHI: +< je tam hodiny [*] .
%mor: v|být-3&SG&ind&pres&akt&impf-err adv:pro|tam n:pt|hodiny-1&PL&F .
%pho: je tam hodiny .
%err: je = jsou .
(…)
*MOT: jsou tam hodiny .
%mor: v:aux/cop|být-3&PL&ind&pres&akt&impf adv:pro|tam n|hodina-1&PL&F .
%pho: jsou tam hodiny .
%com: opravuje CHI .
*CHI: jsou tam .
%mor: v|být-3&PL&ind&pres&akt&impf adv:pro|tam .
%pho: sou tam .

Kdo jsme?

Jádro týmu Korpusů rané češtiny tvoří koordinátorky, doktorandky FF UK, Anna Chromá a Klára Matiasovitsová. V pozici zkušenějšího konzultanta figuruje od počátku projektu docent Filip Smolík. V klíčové oblasti přepisu a revizí se projekt aktuálně může opřít o dvě zkušené a dlouhodobě spolupracující pregraduální studentky FF UK Markétu Baslovou a Kateřinu Šimkovou; a tři šikovné nováčky rovněž z řad studujících na FF UK Jana Pince, Leonu Strakovou a Štěpánku Tvrdíkovou (zaškolené na přelomu let 2021/22). Mezi přepisující do nedávna patřila i doktorandka FF UK Jolana Kohoutková, která se momentálně věnuje pouze omezeně revidování a jinak je spoluřešitelkou Klářina projektu START. Spoluřešiteli tohoto projektu jsou i další doktorandi FF UK Jakub Sláma a Petra Čechová.