推广 热搜： 公司快速上海中国未来金企业政策教师系统

NLP实战使用gensim与自己语料训练word2vec fasttext模型词向量及使用

日期：2024-11-10 作者：xinet caijiyuan 评论：0 移动：http://zhiwen.bhha.com.cn/news/443.html

核心提示：toc本博客主要记录使用自己的语料库与Python gensim库训练word2vec fastext等模型获得相关词向量，以及训练好的词向量模型基本用

toc

NLP实战使用gensim与自己语料训练word2vec fasttext模型词向量及使用

本博客主要记录使用自己的语料库与Python gensim库训练word2vec fastext等模型获得相关词向量，以及训练好的词向量模型基本用法。

pip库准备

2.1 下载语料库

常用的一些中文语料库有：

2.2 jieba分词

2.3 字符替换处理

如使用sed去掉 " 字符

去掉换行符

3.1 训练word2vec模型

参数说明：

sentences：可以是一个·ist，对于大语料集，建议使用BrownCorpus,Text8Corpus或ineSentence构建。 sg：用于设置训练算法，默认为0，对应CBOW算法；sg=1则采用skip-gram算法。 size：是指特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。 window：表示当前词与预测词在一个句子中的最大距离是多少 alpha: 是学习速率 seed：用于随机数发生器。与初始化词向量有关。 min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5 max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个，则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。 sample: 高频词汇的随机降采样的配置阈值，默认为1e-3，范围是(0,1e-5) workers参数控制训练的并行数。 hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0（defau·t），则negative sampling会被使用。 negative: 如果>0,则会采用negativesamp·ing，用于设置多少个noise words cbow_mean: 如果为0，则采用上下文词向量的和，如果为1（defau·t）则采用均值。只有使用CBOW的时候才起作用。 hashfxn： hash函数来初始化权重。默认使用python的hash函数 iter：迭代次数，默认为5 trim_rule：用于设置词汇表的整理规则，指定那些单词要留下，哪些要被删除。可以设置为None（min_count会被使用）或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的 sorted_vocab：如果为1（defau·t），则在分配word index 的时候会先对单词基于频率降序排序。 batch_words：每一批的传递给线程的单词的数量，默认为10000

3.2 训练fasttext模型

FastText背后的主要原理是，单词的词法结构会携带有关单词含义的重要信息，而传统的单词嵌入并不会考虑这些信息，传统的单词嵌入会为每个单词训练一个唯一的单词嵌入。这对于形态丰富的语言（德语，土耳其语）尤其重要，在这种语言中，单个单词可能具有大量的形态形式，每种形态形式很少出现，因此很难训练良好的词嵌入。

FastText尝试通过将每个单词视为其子单词的集合来解决此问题。为了简单和独立于语言，将子词视为该词的字符n-gram（n元）。一个单词的向量被简单地认为是其组成特征图的所有向量之和。

与原始Word2Vec相比，FastText在语法任务上的表现要好得多，尤其是在训练语料库较小的情况下。在语义任务上，Word2Vec的性能略优于FastText。随着训练语料库大小的增加，差异变得越来越小。

FastText的训练时间明显长于Word2Vec的Gensim版本（15min 42s vs 6min 42s on text8, 17 mil tokens, 5 epochs, and a vector size of 100）。

总的来说，word2vec有一个很大的局限性，那就是该模型无法推断出不熟悉的单词的向量。如果这个限制了我们，那就尝试使用FastText模型。

参数介绍

相比w2v模型，fasttext还有一些参数：

本文地址：http://i.bhha.com.cn/news/443.html 康宝晨 http://i.bhha.com.cn/ , 查看更多

标签： 使用语料

更多>同类最新资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐最新资讯

点击排行

• Python Baidu Search API 使用教程	• 长尾关键词是什么意思？如何使用5118挖掘和下载
• 美国当代英语语料库(COCA)使用介绍(1)完整版	• 多人云视频会议软件“Zoom”使用指南
• 如何优雅地使用大型词嵌入？	• JS逆向之浏览器的功能详细使用
• 如何使用 Google 搜索引擎保姆级教程（附链接）	• Rockchip平台DDR带宽统计工具使用介绍
• 如何高效使用百度搜索

NLP实战 使用gensim与自己语料训练word2vec fasttext模型词向量及使用

2.1 下载语料库

2.2 jieba分词

2.3 字符替换处理

3.1 训练word2vec模型

3.2 训练fasttext模型

NLP实战使用gensim与自己语料训练word2vec fasttext模型词向量及使用