Приведены некоторые результаты, полученные в рамках реализации проекта «Новый метод атрибуции текстов на основе статистики числительных», поддержанного грантом РФФИ № 19-012-00199А. Рассмотрены два подхода к статистическому анализу текстов, основанному на изучении встречаемости числительных в тексте. Первый вариант анализа связан с изучением распределения частот различных первых значащих цифр числительных, встречающихся в тексте. Эти частоты не одинаковы: цифра 1 обычно преобладает, а частоты последующих цифр монотонно убывают. Частоты встречаемости единицы, а также, в меньшей степени, цифр 2 и 3, обычно являются характерной особенностью авторского стиля, проявляющейся во всех (достаточно длинных) текстах автора. Метод удобен для проверки принадлежности некоторой группы текстов одному автору: в случае существенных различий в статистических распределениях единое авторство сомнительно. Второй вариант анализа является расширением первого и предполагает изучение распределения частот самих числительных (а не их первых значащих цифр). Метод позволяет распознавать авторские, стилистические и жанровые особенности текстов и пригоден для углубленного стилометрического анализа. Предложенные подходы проиллюстрированы примерами компьютерного анализа литературных текстов на русском, чешском, литовском, английском, турецком языках.
Переведенное названиеНОВЫЙ МЕТОД АТРИБУЦИИ ТЕКСТОВ НА ОСНОВЕ СТАТИСТИКИ ЧИСЛИТЕЛЬНЫХ: ОБЗОР РЕЗУЛЬТАТОВ: глава в книге
Язык оригиналаАнглийский
Название основной публикацииРАЗВИТИЕ ОБЩЕСТВА И НАУКИ В УСЛОВИЯХ ЦИФРОВОЙ ЭКОНОМИКИ
Подзаголовок основной публикациимонография
Место публикацииПетрозаводск
ИздательМеждународный центр научного партнерства «Новая Наука»
Страницы153-201
Число страниц49
ISBN (печатное издание)978-5-00174-293-7
СостояниеОпубликовано - 2021

    ГРНТИ

  • 16.00.00 ЯЗЫКОЗНАНИЕ

ID: 23765508