Не слишком ли сложно? Машинное обучение проверит, понятен ли текст аудитории

Исследователи определили наиболее эффективный метод машинного обучения и подобрали необходимые для него настройки.

Исследователи определили наиболее эффективный метод машинного обучения и подобрали необходимые для него настройки.
Фото Global Look Press.

Обсуждение результатов на семинаре в США.

Обсуждение результатов на семинаре в США.
Фото Валерия Соловьёва, предоставлено пресс-службой Российского научного фонда.

Исследователи определили наиболее эффективный метод машинного обучения и подобрали необходимые для него настройки.
Обсуждение результатов на семинаре в США.
Результаты исследования пригодятся для определения, к примеру, уровня сложности учебников. Это, в свою очередь, повлияет на качество образования и уровень обучения в России, уверены авторы новой работы.

Методы машинного обучения (один из классов методов искусственного интеллекта) позволяют провести эффективный анализ любого текста по целому ряду критериев, например, по частоте встречаемости отдельных частей речи или по синтаксической сложности.

Как сообщает сообщает пресс-релиз Российского научного фонда., недавно международная группа учёных сравнила результаты применения этой технологии с результатами, полученными по формулам удобочитаемости. Отметим, что в основе таких формул лежат только два параметра: длина предложения и длина слова. Оказалось, что машинное обучение намного лучше показывает, будет ли понятен текст определённой целевой аудитории.

"[Нами] впервые предложен математически обоснованный и экспериментально проверенный метод оценки сложности текстов на русском языке, учебных материалов. Это может помочь в повышении уровня обучения в России, в её продвижении в международном рейтинге систем образования", – прокомментировал один из авторов статьи профессор Казанского федерального университета (КФУ) Валерий Соловьёв.

На сегодняшний день одним из самых популярных методов оценки сложности текста считаются индексы удобочитаемости. Последние помогают определить, насколько текст легко читать и, что самое важное, понимать.

Чаще всего используются индекс Флеша (FRE) и индекс Флеша–Кинкейда (FKG). Изначально они были созданы для английского языка, но впоследствии были адаптированы и для русского.

Такие индексы рассчитываются по формулам читаемости, но с их помощью можно изучить текст не более чем по двум критериям, таким как количество слов в предложении и количество слогов в слове.

Между тем двух критериев недостаточно для глубокого анализа текста, отмечают исследователи КФУ. Им вторят специалисты: удобочитаемость текста обеспечивается десятками параметров.

Обсуждение результатов на семинаре в США.

Учёные КФУ совместно с коллегами из Университета Иннополис и Национального политехнического института Мексики применили современные методы, позволяющие учесть гораздо большее количество параметров.

Специалисты выбрали школьные учебники по обществознанию для 5–11 классов, в которых отсутствовали картинки, таблицы и карты. (По этой причине их легче было использовать в работе.)

Все тексты разделили на группы, каждую из которых предстояло проанализировать по следующим критериям: количество слов в предложении, количество слогов в слове, частота встречаемости длинных слов, содержание различных частей речи, доля слов в именительном и родительном падеже и прочее.

В общей сложности учитывалось 11 параметров, которые так или иначе влияют на сложность восприятия текста. Так, чем меньше в тексте слов, состоящих из большого числа слогов, и чем больше глаголов, тем легче он будет читаться.

Анализ проводился при помощи сразу нескольких методов машинного обучения (речь идёт об автоматических способах решения каких-либо задач при помощи компьютера). При этом алгоритм не даётся заранее: программа ищет его сама на основе полученных данных.

В результате исследователи определили наиболее эффективный метод машинного обучения и подобрали необходимые для него настройки. Лучшие результаты для самых длинных текстов были получены при анализе полного набора признаков.

Таким способом можно будет в будущем оценивать академический текст по целому ряду критериев и делать более точные выводы о соответствии учебных материалов уровню восприятия учеников, нежели при использовании индексов удобочитаемости, считают специалисты.

Эксперты также сравнили результаты работы с данными других исследований, в которых оценивалась сложность текстов в тестовых пособиях по русскому языку как иностранному. Оказалось, что в этом случае уровень оценить гораздо проще именно при помощи машинного обучения. Возможно, это связано с тем, что сложность текста для русскоговорящего человека определяется не столько свойствами самого текста, сколько особенностями читающего, например, его словарным запасом.

В то же время иностранец, знающий язык на определённом уровне, будет более нуждаться в тексте, содержащем известные ему слова и грамматические конструкции.

Результаты научной работы опубликованы в издании Journal of Intelligent & Fuzzy Systems. Исследования поддержаны грантом Российского научного фонда.

К слову, ранее авторы проекта "Вести.Наука" (nauka.vesti.ru) рассказывали о других интересных исследованиях в этой области: почему чистота языка влияет на работу памяти и как лингвист определила разницу между языком и диалектом. Также мы писали о разработке технологии, позволяющей распознавать речь по губам лучше специалистов, а также о программе, которая понимает язык жестов.