首页 理论教育 基于词向量的语言处理模型:提升个性化网络学习服务

基于词向量的语言处理模型:提升个性化网络学习服务

时间:2023-11-26 理论教育 版权反馈
【摘要】:Bengio等人在机器学习领域的重要会议NIPS上提出了三层神经网络构建的语言模型,可以生成词语的多维向量对词语进行数学表达[83]。多维词向量的表达技术来源于机器学习理论。而满足条件概率最大化的词语向量,也就成为了词语语义的合理表示。这里介绍采用了Google基于机器学习理论的开源词向量训练工具word2vec进行词向量的生成,机器学习的算法模型为Skip-gram,如图8-4所示。图8-4word2vec的词向量训练模型在训练时,对部分知识本体词汇进行了自定义分词。

基于词向量的语言处理模型:提升个性化网络学习服务

在对教育资源进行知识关联之前需要有一个数学化的语言模型来帮助计算机对文字符号进行语义解析,其模型的基础需要将语言文字数学化,使用数学向量表达词语之间的联系。Bengio等人在机器学习领域的重要会议NIPS(Neural Information Processing Systems)上提出了三层神经网络构建的语言模型,可以生成词语的多维向量对词语进行数学表达[83]。在该算法提出之前,词语的向量维度一般为1,也就相当于对每个词语定制一个编号,编号之间没有关联,由此产生了“词汇鸿沟”问题:即任意两个词之间都是孤立的,仅从两个编号之间看不出词语之间的关系。而多维向量可以将词汇列表放置到多维空间中,通过计算多维空间的余弦距离或欧氏距离形成词汇之间的关系[84]

多维词向量的表达技术来源于机器学习理论。该算法的基本假设:相似的词语拥有相似的语境,即特定的语境只有确定的语义才能够与之匹配。通过最大化条件概率,使得单词和语境之间的对应关系最大化,进而满足该假设[85]。而满足条件概率最大化的词语向量,也就成为了词语语义的合理表示。

这里介绍采用了Google基于机器学习理论的开源词向量训练工具word2vec进行词向量的生成,机器学习的算法模型为Skip-gram,如图8-4所示。假设训练数据集中有一组w1,w2,w3,…,wt词语序列,为满足最大化条件概率,设置该模型的目标函数为:

其中,b是为了减少计算复杂度而设置的上下文窗口大小,表示词语wt的条件概率计算只参考附近的b个词语,距离较远的词则忽略不计,所以b越大则计算结果的准确度也越高,但是训练时间也会增加[86]

(www.xing528.com)

图8-4 word2vec的词向量训练模型

在训练时,对部分知识本体词汇进行了自定义分词。因为知识本体所代表的词汇是不可拆分的,通过自定义分词匹配规则,我们才能够得到知识本体所代表的完整词向量。经过训练后,我们便能够通过词语向量进行关联分析,为进一步的知识关联做准备。例如

正弦定理:[0.792-0.177-0.107 0.109-0.542]

这种向量表达方式不仅能够计算词语之间的距离,还能够用于关系的推导和聚类分析,方便我们对学习资源的知识关联进行分析和梳理。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈