Представляю вашему вниманию статью , ведущую в конечном итоге к программе, помогающей определить авторство контента, да что та контента, произведения:
Лингвистический анализатор, разрабатывался в течение 2007-2008 годов в рамках сайта «Лаборатории Фантастики». Изначально ставилась цель проанализировать тексты русскоязычных писателей-фантастов и выявить значимые их характеристики, описывающие в совокупности авторский стиль, или так называемый «авторский лингвопрофиль».
Если тут не стоит ссытки, то лишь с целью стимулировать заинтересованность в технологии посредством поиска в google
Для достижения поставленной цели был написан програмный код, получающий на входе текст, скажем, романа, и выдающий на выходе более тысячи различных его статистических характеристик, среди которых:
- Средняя длина предложения (СДП), знаков
- СДП авторского текста, знаков
- СДП диалога, знаков
- Доля диалогов в тексте
- Доля авторского текста в диалогах
- Динамика использование диалогов по тексту (график)
- Использовано уникальных слов (всего уникальных слов, как словарных, так и выдуманных автором)
- Активный словарный запас (количество уникальных словарных слов в тексте)
- Активный несловарный запас (количество уникальных выдуманных слов в тексте — сюда входят все имена, названия и неологизмы)
- Удельный АСЗ на 3000 слов текста (среднее количество уникальных словарных слов на 3000 слов текста)
- Удельный АСЗ на 10000 слов текста
- Удельный АСЗ на 100000 слов текста
- Динамика изменения УАСЗ-3000 от начала до конца произведения (график)
- Статистика использования частей речи: процент существительных, прилагательных, глаголов, местоимений-существительныхм, местоименных прилагательных, местоимений-предикативов, числительных (количественных), числительных (порядковых), наречий, предикативов, предлогов, послелогов, союзов, междометий, вводных слов, фразовых глаголов, частиц, кратких прилагательных, причастий, деепричастий, кратких причастий и инфинитивов. А также — неопределённых частей речи и т.н. служебных частей речи.
- Биграммы частей речи — частота употребления пар «существительное-глагол», «наречие-прилагательное» и т.д. для всех перечисленных выше частей речи.
- Части речи на позициях в предложении — как часто первым словом в предложении является местоимение, как часто вторым является глагол и т.п. По всем частям речи, вплоть до 20й позиции.
- Частоты всех известных знаков препинания.
- Биграммы буквенных пар — простой подсчёт частот всех алфавитных пар «аа», «аб», «ав»… «ба», «бб» и т.д.
- Биграммы «соединительных символов» (частоты пар первой буквы текущего слова и последней буквы предыдущего — исключая имена, названия и пр.)
Пару слов скажу о словарном запасе. Словарный запас — это, грубо говоря, количество уникальных слов, которые знает автор. Но знает ещё не значит, что они их употребляет в своих текстах. Поэтому гораздо более актуальной характеристикой является «активный словарный запас», что для случая конкретной книги означает количество использованных в ней уникальных слов. Но, учитывая тот факт, что книги различаются по объёму, логичным будет считать т.н. «удельный активный словарный запас», то есть количество уникальных слов на сколько-то слов текста. Если мы вычленим из текста 10000 идущих подряд слов, удалим из них повторяющиеся и посчитаем сколько осталось, то мы получим ни что иное как «удельный АСЗ на 10000 слов текста». И ещё один нюанс: несловарные слова (названия, имена, выдуманные автором слова) в подсчёте АСЗ и УАСЗ не участвуют. Количество этих слов считается как отдельная характеристика — «активный несловарный запас».
Полный материал вы найдете на сайте автора