В цій статті ви можете ознайомитися з історією й деталями створення частотного словника української публіцистики.
Створюючи сайт
Лінгвісто (онлайн
словники, які можна редагувати), — я
побачив статистику вживання німецький
слів на сайті dwds.de. Наприклад статистика вживання слова
Recherche.
Так зʼявилася
ідея дослідити динаміку зміни частоти
вживання українських слів протягом
тривалого періоду часу (діахронії). При створенні
частотного словника української
публіцистики я використав досвід та
напрацювання отримані при створенні
частотного словника українськоїхудожньої прози. Отримані
результати розміщено
онлайн. В словнику наведена частота вживання більш ніж 170 000 слів.
Для такого дослідження потрібен
великий масив текстів які можна однозначно
звʼязати з певною датою (датою написання).
Для художніх творів встановлення дати
написання не завжди можливе і часто
досить приблизне. Тому об'єктом дослідження
було обрано новини та публіцистику.
Дослідження показали, що легкодоступні
тексти в електронному вигляді є починаючи
з 1997 року. Пізніше вдалося знайти
матеріали починаючи з 1991, що потребували
додаткової обробки (розпізнавання
тексту). Початкове збирання та обробка
текстів тривала близько півроку. Коли
корпус текстів набув більш-менш
стабільного вигляду, — почалися роботи
з підрахунку статистики. При цьому було
змінено процедуру визначення словникової
(нормальної) форми слова. Тепер для цього
використовується великий електронний
словник української мови (ВЕСУМ)
(
https://github.com/brown-uk/dict_uk).
Конфлікти при визначенні
словникової форми слова (лематизація)
Як і при створенні частотного словника
української художньої прози, нерозвʼязаною
залишається проблема однозначного
визначення словникової форми слова для
певних форм слів.
Наприклад форма слова "стала"
має три можливі словникові форми:
Розв'язок цієї задачі потребує розгляду
контексту вживання слова, що досить
складно. На даному етапі прийдеться
миритися з неточностями статистики
через неможливість однозначної
лематизації.
Оброблені дані
Для отримання графічного представлення,
обчислювалася частота вживання слова
за кожен рік починаючи з 1991 року. Загалом
було проаналізовано 870 мільйонів слів,
або 12,5 гігабайтів тексту.
Для створення словника було використано
публікації з наступних сайтів та видань
-
http://www.umoloda.kiev.ua/
-
https://day.kyiv.ua/
-
http://tyzhden.ua/
-
http://gazeta.dt.ua/
-
http://www.unian.ua/
-
http://zaxid.net/
-
http://zik.ua/
-
http://www.pravda.com.ua/
-
http://gazeta.ua/
-
http://www.telekritika.ua/
-
http://molbuk.ua/
-
Голос України
Кількість
проаналізованих слів за кожен рік
виглядає так:
Рік |
Кількість слів |
1991 |
5 110 805 |
1992 |
4 729 946 |
1993 |
3 431 045 |
1994 |
3 849 379 |
1995 |
3 417 543 |
1996 |
4 043 219 |
1997 |
5 395 192 |
1998 |
7 197 782 |
1999 |
8 038 333 |
2000 |
8 875 595 |
2001 |
9 582 517 |
2002 |
11 410 371 |
2003 |
12 248 543 |
2004 |
17 535 415 |
2005 |
21 014 925 |
2006 |
33 400 295 |
2007 |
47 289 146 |
2008 |
59 827 287 |
2009 |
61 385 679 |
2010 |
72 069 207 |
2011 |
74 232 823 |
2012 |
80 327 866 |
2013 |
69 711 366 |
2014 |
82 548 090 |
2015 |
85 934 326 |
2016 |
80 967 088 |
Дослідження отриманої
статистики
Отримана статистика може наочно
продемонструвати появу нових слів
(
інтернет,
смартфон,
мобілка), поступове
зменшення вживання слів (
магнітофон,
телеграма), кореляцію частоти вживання
слів з певними подіями (
терорист,
сепаратизм,
війна,
окупація,
заручник,
інфляція,
ваучер,
перебудова).
Глибший математичний аналіз ще
попереду...
Подальший збір даних
Було б цікаво розширити хронологію, але
я не знайшов електронних текстів
періодичних видань до 1991 року. Якщо
раптом хтось має періодичні видання до
1991 року в електронному вигляді (текст,
pdf, djvu, ...) й бажає надати їх для аналізу
— пишіть на webmaster на linguisto.eu.
Можливі подальші дослідження
- Частотний
словник української прози 1900 - 2016
- Створення чогось схожого на Google Ngram Viewer