tensorflow word2vec的一些看法

许多优秀算法有一个特点:简单高效,word2vec正属于此类。简单的一个hidden layer,外加高效的negative sample,就能取得很不错的embedding效果。

当然最靠谱的算法实现就是word2vec作者给出的源码,在实际应用中,不论是词embedding或者行为序列embedding,获得的效果都不错。今天谈论一下tensorflow word2vec的使用感受。

个人认为在算法应用中,最重要的是数据的收集,预处理和特征工程。没有正确可靠的数据,再好的算法也是巧妇难为无米之炊,如果只是单纯走通算法,在实际落地中,意义很小。一个算法如果线上表现不好,一方面是参数调整,更多的是要考虑数据处理是否有问题。
word2vec用tensorflow来实现,代码很简洁,负采样也有现成实现nce_loss。但我最感兴趣的是数据处理的方式,官方给出的demo是基于skip-gram + negative sample,材料中对数据处理也没有详述,在实际应用中,有下面几点感受:

  • 设置vocabulary_size这个参数不合适,word2vec的c源码是设置了min_count,这样的好处是只保留频繁的单词,因为频繁,所以训练才会充分,那些频率低的单词的训练结果置信度很低,会降低整体embedding的可靠程度。这里设置vocabulary_size就不合理了,虽然按照频次倒排,但无法排除频率低的单词。
  • generate_batch的实现有点别扭,比如global data_index,让代码显得很松散,还有collections.deque的使用,让代码读起来不清晰。
  • num_steps参数不合适,在训练过程中,需要打印中间结果信息,方便检验运行是否正确。用num_steps来衡量训练迭代充分与否不恰当,这和vocabulary_size一个道理,num_steps设置多少才算合理呢?在word2vec的c源码是设置了epoch这个参数,使得可以一轮一轮地用数据训练模型,简单明了。

在实际应用中,我也对上面几点进行了修改,贴合原word2vec的数据处理方式,线上效果不错。tensorflow-word2vec-demo有这样的不足,觉得是因为word2vec的离线效果不好衡量,一般都是训练结束,用tsne可视化一下,看起来很炫就结束了。而原word2vec的c实现是经过了工业界检验的,里面有很多小trick,这些都是线上迭代的结晶,看起来不显眼,却是不可或缺,许多trick的堆叠引起质变,pure的算法实现与此相比在线上的表现差距巨大。

此外,在实际线上应用的感受是,skip-gram模型是优于cbow模型的。因为本身是做推荐算法的,个人觉得word2vec也是一种协同思想,最后embedding的结果是单词间共现关系的体现。在cbow模型中,$mean(context)\rightarrow target$这会丢失许多信息,使得训练并不充分。而cbow对于语言模型,也挺奇怪,上下文的语义就是平均吗。。有点粗鲁。RNN的LSTM就设立了各种gate来学习context,很精巧。