• 2.3 通用词性标记集

    2.3 通用词性标记集

    已标注的语料库使用许多不同的标记集约定来标注词汇。为了帮助我们开始,我们将看一看一个简化的标记集(2.1中所示)。

    表 2.1:

    通用词性标记集

    1. >>> from nltk.corpus import brown
    2. >>> brown_news_tagged = brown.tagged_words(categories='news', tagset='universal')
    3. >>> tag_fd = nltk.FreqDist(tag for (word, tag) in brown_news_tagged)
    4. >>> tag_fd.most_common()
    5. [('NOUN', 30640), ('VERB', 14399), ('ADP', 12355), ('.', 11928), ('DET', 11389),
    6. ('ADJ', 6706), ('ADV', 3349), ('CONJ', 2717), ('PRON', 2535), ('PRT', 2264),
    7. ('NUM', 2166), ('X', 106)]

    注意

    轮到你来:使用tag_fd.plot(cumulative=True)为上面显示的频率分布绘图。标注为上述列表中的前五个标记的词的百分比是多少?

    我们可以使用这些标记做强大的搜索,结合一个图形化的词性索引工具nltk.app.concordance()。用它来寻找任一单词和词性标记的组合,如N N N N, hit/VD, hit/VN或者the ADJ man