深入浅出Word2Vec原理解析

期权匿名回答 · 2022-7-7 00:01:50

增量训练有可能吗？

期权匿名回答 · 2022-7-7 00:02:30

当k很大时， count(w1),count(w1,w2),..., count(w1,w2,w3,...,wk) 的统计并不会耗时多少，假如 k=50 ，语料库中的文档有10亿个词（相同的词会重复计算），500亿次扫描，就可以立已经出现的所有1-50个词构成的序列频率，凡是没有出现的为了避免乘以0，都取1/500亿。

期权匿名回答 · 2022-7-7 00:03:02

作者说的目标函数就是损失函数，我说怎么直接看中间理解起来有点混乱

期权匿名回答 · 2022-7-7 00:03:43

您好，前辈，我一直有一个疑问，就是关于word2vec这个模型的，他最后是怎样生成词向量的了？按照文中的说话，这个模型不是对句子中的词进行预测的吗？附属品词向量又是怎么生成的了？

期权匿名回答 · 2022-7-7 00:04:13

每个不同的词一个字典，只用扫描一次啊。

期权匿名回答 · 2022-7-7 00:04:44

大赞，感觉是近期看过讲的最清晰明白，从本质到原理到优化

期权匿名回答 · 2022-7-7 00:05:25

我的理解是这样的，语料库有n个单词，输入的向量是n维的零一向量V，第一个全连接的权重矩阵是n* m 维的M ,中间表示是m维的向量，零一向量V乘以M矩阵相当于取矩阵的某几行。因此单词wordk在V中的第k个位置为1，它的中间表示就是矩阵M第k行，因此M的第k行是单词word_k 的词向量

期权匿名回答 · 2022-7-7 00:06:02

大侠，skip-gram中隐藏层到输出层共享一个权重矩阵，怎么可能输出多个不同的向量呢？不理解啊

期权匿名回答 · 2022-7-7 00:06:55

谢谢作者，听不下去课看完这个帮助很大！

期权匿名回答 · 2022-7-7 00:07:19

在skip-gram的假如隐藏层中是[1*6]的向量，为了得到更多词，怎么变成[n*6]的向量，然后和权重W2相乘。。。。

期权匿名回答 · 2022-7-7 00:07:38

最少省了两月时间
欢呼

期权匿名回答 · 2022-7-7 00:08:27

同，损失函数没看明白，怎么训练的啊？

期权匿名回答 · 2022-7-7 00:08:42

损失函数没看明白，怎么训练的啊？

期权匿名回答 · 2022-7-7 00:09:02

请问目标函数就是极大似然吗？

期权匿名回答 · 2022-7-7 00:09:14

有答案了没，这个没看懂

期权匿名回答 · 2022-7-7 00:09:46

“这里，需要注意的是需要提前初始化一个word embedding矩阵，每一行表示一个单词的向量。”请问这个矩阵是用在“哪里”？

期权匿名回答 · 2022-7-7 00:10:15

输出的是相同的向量，但是损失函数不一样

期权匿名回答 · 2022-7-7 00:10:45

表示context(w)的时候写错了，括号位置错了吧[捂脸]

期权匿名回答 · 2022-7-7 00:10:53

您好，我觉得有一个地方存在疑问，就是“ a dog is ......" 和 ”a cat is .....“后面有个解释：在神经概率语言模型中假定了“相似的”的词对应的词向量也是相似的。我觉得这个有点误差，因为dog和cat相似只是我们主观意识知道的，但是由于cat的数据量过小，其对应的embedding向量没有被很好的训练，所以dog和cat的embedding向量的应该是不相似的。

期权匿名回答 · 2022-7-7 00:11:33

我的理解是，相当于输出是一个多维向量（而不是一维）