Русская Раскрутка - блог

Представляю вашему вниманию статью , ведущую в конечном итоге к программе, помогающей определить авторство контента, да что та контента,  произведения:

Лингвистический анализатор,  разрабатывался в течение 2007-2008 годов в рамках сайта «Лаборатории Фантастики». Изначально ставилась цель проанализировать тексты русскоязычных писателей-фантастов и выявить значимые их характеристики, описывающие в совокупности авторский стиль, или так называемый «авторский лингвопрофиль».

Если тут не стоит ссытки, то лишь с целью стимулировать заинтересованность в технологии посредством поиска в google

Для достижения поставленной цели был написан програмный код, получающий на входе текст, скажем, романа, и выдающий на выходе более тысячи различных его статистических характеристик, среди которых:

  • Средняя длина предложения (СДП), знаков
  • СДП авторского текста, знаков
  • СДП диалога, знаков
  • Доля диалогов в тексте
  • Доля авторского текста в диалогах
  • Динамика использование диалогов по тексту (график)
  • Использовано уникальных слов (всего уникальных слов, как словарных, так и выдуманных автором)
  • Активный словарный запас (количество уникальных словарных слов в тексте)
  • Активный несловарный запас (количество уникальных выдуманных слов в тексте — сюда входят все имена, названия и неологизмы)
  • Удельный АСЗ на 3000 слов текста (среднее количество уникальных словарных слов на 3000 слов текста)
  • Удельный АСЗ на 10000 слов текста
  • Удельный АСЗ на 100000 слов текста
  • Динамика изменения УАСЗ-3000 от начала до конца произведения (график)
  • Статистика использования частей речи: процент существительных, прилагательных, глаголов, местоимений-существительныхм, местоименных прилагательных, местоимений-предикативов, числительных (количественных), числительных (порядковых), наречий, предикативов, предлогов, послелогов, союзов, междометий, вводных слов, фразовых глаголов, частиц, кратких прилагательных, причастий, деепричастий, кратких причастий и инфинитивов. А также — неопределённых частей речи и т.н. служебных частей речи.
  • Биграммы частей речи — частота употребления пар «существительное-глагол», «наречие-прилагательное» и т.д. для всех перечисленных выше частей речи.
  • Части речи на позициях в предложении — как часто первым словом в предложении является местоимение, как часто вторым является глагол и т.п. По всем частям речи, вплоть до 20й позиции.
  • Частоты всех известных знаков препинания.
  • Биграммы буквенных пар — простой подсчёт частот всех алфавитных пар «аа», «аб», «ав»… «ба», «бб» и т.д.
  • Биграммы «соединительных символов» (частоты пар первой буквы текущего слова и последней буквы предыдущего — исключая имена, названия и пр.)

Пару слов скажу о словарном запасе. Словарный запас — это, грубо говоря, количество уникальных слов, которые знает автор. Но знает ещё не значит, что они их употребляет в своих текстах. Поэтому гораздо более актуальной характеристикой является «активный словарный запас», что для случая конкретной книги означает количество использованных в ней уникальных слов. Но, учитывая тот факт, что книги различаются по объёму, логичным будет считать т.н. «удельный активный словарный запас», то есть количество уникальных слов на сколько-то слов текста. Если мы вычленим из текста 10000 идущих подряд слов, удалим из них повторяющиеся и посчитаем сколько осталось, то мы получим ни что иное как «удельный АСЗ на 10000 слов текста». И ещё один нюанс: несловарные слова (названия, имена, выдуманные автором слова) в подсчёте АСЗ и УАСЗ не участвуют. Количество этих слов считается как отдельная характеристика — «активный несловарный запас».

Полный материал вы найдете на сайте автора

Leave a Reply

Proudly powered by Russian Promoutin. Theme developed with ruseonet.ru.
Copyright © Русская Раскрутка - блог. All rights reserved.