Persian poetic corpus
Персидский поэтический корпус включает в себя тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (16 842 произведения, 330 723 бейта). Тексты морфологически размечены, доступен поиск по словам в позиции редифа и рифмы, часть текстов размечена метрически.
Корпус создан на персидском материале как продолжение концепции Поэтического корпуса НКРЯ, Башкирского поэтического корпуса, Корпуса чешского стиха (в порядке появления). Такие корпуса обычно включают морфологическую разметку, доступную в традиционном лингвистическом корпусе, но кроме неё содержат также и специальную разметку, характеризующую уровень стиха.
Тексты охарактеризованы следующими метаданными (если они известны):
В корпусе представлены следующие метрические формулы аруза:
Слова в корпусе размечены грамматически, это значит, что они лемматизированы и имеют морфологическую характеристику, и позиционно, это значит, что поиск можно задавать, учитывая, находится ли слово в позиции рифма или редифа.
Грамматические теги в корпусе имеют следующее значение:
Тег | Категория | Значение |
---|---|---|
N | Part of speech | Noun |
V | Part of speech | Verb |
AJ | Part of speech | Adjective |
ADV | Part of speech | Adverb |
PREP | Part of speech | Preposition |
POSTP | Part of speech | Postposition |
NUM | Part of speech | Numeral |
CONJ | Part of speech | Conjunction |
INT | Part of speech | Interjection |
CL | Part of speech | Classifier |
DET | Part of speech | Determiner |
PRO | Part of speech | Pronoun |
SG | NUMBER | Singular |
PL | NUMBER | Plural |
COMP | COMPARISON | Comparative |
SUP | COMPARISON | Superlative |
IMP | MOOD | Imperative |
IND | MOOD | Indicative |
SUB | MOOD | Subjunctive |
PAST | TENSE | Past |
IMPF | TENSE | Imperfect |
PERF | TENSE | Perfect |
PERF2 | TENSE | Perfect + Copula |
PPERF | TENSE | Past Perfect |
PRES | TENSE | Present |
IRR | TENSE | Irrealis |
IRRP | TENSE | Past Irrealis |
1SG | PERSON | 1Singular |
1PL | PERSON | 1Plural |
2SG | PERSON | 2Singular |
2PL | PERSON | 2Plural |
3SG | PERSON | 3Singular |
3PL | PERSON | 3Plural |
NEG | POLARITY | Negative |
POS | POLARITY | Positive |
COP1SG | COPULA | Copula 1SG |
COP1PL | COPULA | Copula 1PL |
COP2SG | COPULA | Copula 2SG |
COP2PL | COPULA | Copula 2PL |
COP3SG | COPULA | Copula 3SG |
COP3PL | COPULA | Copula 3PL |
EZ | CLITICS | Ezafe |
PRO1SG | CLITICS | Pronoun 1SG |
PRO1PL | CLITICS | Pronoun 1PL |
PRO2SG | CLITICS | Pronoun 2SG |
PRO2PL | CLITICS | Pronoun 2PL |
PRO1PL | CLITICS | Pronoun 1PL |
PRO3SG | CLITICS | Pronoun 3SG |
PRO3PL | CLITICS | Pronoun 3PL |
YEH | CLITICS | Indefinite Article |
PP | FORM | Passive Participle |
INF | FORM | Infinitive |
Отдельно можно искать слова, если они располагаются в позиции рифмы RHYME
или редифа REDIF
.
Корпус создан Б. В. Ореховым и Д. С. Степиной. Предварительная морфологическая разметка произведена Т. Л. Кононовой.
Приглашаем к сотрудничеству всех заинтересованных в развитии корпуса: nevmenandr@gmail.com
.