10 січня 2018

Дослідження словникового запасу українців

Для даного дослідження я створив онлайн-тест пасивного словникового запасу: http://linguisto.eu/voctest.xhtml.

Окремим словом в даному тесті вважається будь-яке реєстрове слово великого електронного словника української мови (https://github.com/brown-uk/dict_uk).

Тест базується на частотному словнику і припущенні, що ймовірність того,
що людина знає певне слово пропорційна частоті вживання слова. Чим частіше вживається слово, тим більше людей знає його.

Тест складається з двох частин: груба оцінка і уточнення. В кожній з них пропонується позначити відомі слова галочкою.
Слова тесту вибираються випадково, але так, щоб покрити весь наявний словник.
В першій частині оцінюється приблизна величина словникового запасу.
В другій частині вибираються слова частотного словника в околі значення отриманого в першій частині і визначається остаточна величина словникового запасу.

Людина, що проходить тест може просто позначити всі слова як відомі і отримати найвищий результат. Щоб якось перевірити коректність проходження тесту в тесті присутні неіснуючі слова. Якщо користувач позначає їх як відомі, то результат такого тесту вважається фальсифікованим. Фальсифіковані тести не розглядаються при складанні загальної статистики.

Проходячи тест люди вказували свій вік та освіту.

Починаючи з листопада 2016 року тест пройшло 2200 людей для яких українська мова - рідна. З них 1273 тести були пройдені коректно. Ось графічне представлення результатів дослідження:


Результати дослідження словникового запасу українців
Результати дослідження словникового запасу українців

Немає коментарів: