深入浅出Word2Vec原理解析

论坛 期权论坛 金融     
期权匿名问答   2022-7-7 00:00   5193   20
增量训练有可能吗?
当k很大时, count(w1),count(w1,w2),..., count(w1,w2,w3,...,wk) 的统计并不会耗时多少,假如 k=50 ,语料库中的文档有10亿个词(相同的词会重复计算),500亿次扫描,就可以立已经出现的所有1-50个词构成的序列频率,凡是没有出现的为了避免乘以0,都取1/500亿。
作者说的目标函数就是损失函数,我说怎么直接看中间理解起来有点混乱
您好,前辈,我一直有一个疑问,就是关于word2vec这个模型的,他最后是怎样生成词向量的了?按照文中的说话,这个模型不是对句子中的词进行预测的吗?附属品词向量又是怎么生成的了?
每个不同的词一个字典,只用扫描一次啊。
大赞,感觉是近期看过讲的最清晰明白,从本质到原理到优化
我的理解是这样的,语料库有n个单词,输入的向量是n维的零一向量V,第一个全连接的权重矩阵是n* m 维的M  ,中间表示是m维的向量,零一向量V乘以M矩阵相当于取矩阵的某几行。因此单词wordk在V中的第k个位置为1,它的中间表示就是矩阵M第k行,因此M的第k行是单词word_k 的词向量
大侠,skip-gram中隐藏层到输出层共享一个权重矩阵,怎么可能输出多个不同的向量呢?不理解啊
谢谢作者,听不下去课看完这个帮助很大!
在skip-gram的假如隐藏层中是[1*6]的向量,为了得到更多词,怎么变成[n*6]的向量,然后和权重W2相乘。。。。
最少省了两月时间
欢呼
同,损失函数没看明白,怎么训练的啊?
损失函数没看明白,怎么训练的啊?
请问目标函数就是极大似然吗?
有答案了没,这个没看懂
“这里,需要注意的是需要提前初始化一个word embedding矩阵,每一行表示一个单词的向量。”请问这个矩阵是用在“哪里”?
输出的是相同的向量,但是损失函数不一样
表示context(w)的时候写错了,括号位置错了吧[捂脸]
您好,我觉得有一个地方存在疑问,就是“ a dog is ......" 和 ”a cat is .....“后面有个解释:在神经概率语言模型中假定了“相似的”的词对应的词向量也是相似的。我觉得这个有点误差,因为dog和cat相似只是我们主观意识知道的,但是由于cat的数据量过小,其对应的embedding向量没有被很好的训练,所以dog和cat的embedding向量的应该是不相似的。
我的理解是,相当于输出是一个多维向量(而不是一维)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:394347
帖子:78870
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP