基于BERT的神经协同过滤和固定长度连续标记解释
雷纳尔德·阿德里安·普戈伊1,2和高鸿宇1
1国立成功大学,台南市,台湾
2菲律宾大学开放大学,洛斯巴尼奥斯,菲律宾 ˜ rdpugoy@up.edu.ph,hykao@mail.ncku.edu.tw
抽象的
我们提出了一种新颖、准确且可解释的推荐模型(BENEFICT),旨在解决大多数基于评论的推荐系统面临的两大缺陷。首先,它们使用传统的词嵌入,由于无法对词语义的动态特性进行建模,可能会影响预测性能。其次,它们本质上是黑箱模型,导致每次预测背后的解释都难以理解。我们的模型独特地整合了三个关键要素:BERT、多层感知器和最大子数组问题,分别用于提取上下文相关的评论特征、对用户-商品交互进行建模以及生成解释。实验结果表明,BENEFICT 的性能始终优于其他最先进的模型,平均提升幅度接近 7%。根据人工评审的评估,BENEFICT 生成的解释能够捕捉到用户偏好的本质,并帮助未来的用户做出购买决策。据我们所知,我们的模型是首批利用 BERT 进行神经协同过滤的推荐模型之一。
1 引言
在推荐系统研究中,协同过滤(CF)是目前最先进的推荐模型,它主要致力于学习用户(用户偏好)和物品(物品特征)的精确表示(Chen et al. , 2018 ; Tay et al. , 2018 )。最早的推荐模型基于用户对每个物品的数值评分来学习这些表示(Mnih and Salakhutdinov , 2008 ; Koren et al. , 2009 )。然而,评分是单一离散尺度上的值,它过于简化了用户偏好和物品特征(Musto et al. , 2017 )。典型的在线平台中大量的用户和物品会导致高度复杂的问题。
143
稀疏的评分矩阵使得学习准确的评分表示变得困难(Zheng et al. , 2017 )。为了缓解这些问题,研究人员转而利用评论文本来构建评分表示模型,用于后续的推荐和评分预测,这种方法在研究中引起了越来越多的关注(Catherine and Cohen , 2017 ; Zheng et al. , 2017 )。评论作为特征来源的主要优势在于,它们能够涵盖用户意见的多方面内容。由于用户可以解释其评分背后的原因,评论包含大量丰富且有价值的潜在信息,而这些信息仅凭评分无法获得(Chen et al. , 2018 ; Wang et al. , 2019 )。近年来,融合用户评论的模型取得了最先进的性能(Zheng et al. , 2017 ; Chen et al. , 2018 )。这些方法通过使用传统的词嵌入(例如 word2vec、GloVe)将评论中的每个词映射到其对应的向量,从而学习用户和物品的表征。评论在输入卷积神经网络 (CNN) 之前会被转换为嵌入矩阵(Chen 等人,2018 )。CNN 已被证明能够有效地对评论进行建模,并在众多自然语言处理任务中取得了卓越的成果( Wang 等人,2018a )。
然而,大多数基于评论的推荐模型都存在一些缺点。首先是使用传统或主流的词嵌入来学习评论特征。它们的静态特性是一个障碍,因为无论上下文如何,每个词义都与相同的嵌入相关联。换句话说,这种嵌入无法识别每个词语义的动态特性。对于基于评论的推荐系统而言,这可能会在用户和物品建模方面造成问题,进而影响推荐性能(Pilehvar和 Camacho-Collados ,2019 )。此外,一旦将词嵌入矩阵输入到卷积神经网络(CNN)中,上下文特征的词频信息就会丢失。
第一届亚太计算语言学协会年会暨第十届自然语言处理国际联合会议论文集,第143-153页,2020年12月4-7日。© 2020 计算语言学协会
据称对建模审查至关重要的图像将会丢失(Wang et al. ,2018a )。
另一个缺点是基于深度学习模型的固有黑箱特性,这使得每个预测背后的解释都变得晦涩难懂(Ribeiro et al. , 2016 ; Wang et al. , 2018b )。隐藏层的复杂架构使得模型的内部决策过程变得不透明( Peake and Wang , 2018 )。提供解释有助于说服用户做出决策,并建立用户对推荐系统的信任(Zhang et al. , 2014 ; Ribeiro et al. , 2016 ; Costa et al. , 2018 ; Peake and Wang , 2018 )。然而,这导致我们面临一个两难困境,即准确性和可解释性之间的权衡。通常,最准确的模型本质上是复杂、不透明且难以解释的(Zhang and Chen , 2018 )。对于那些牺牲准确性的、易于解释且简单易懂的方法来说,情况也是如此。构建既易于解释又准确的模型,是机器学习领域一项具有挑战性但至关重要的研究课题,以确保我们能够公平、负责地从机器学习中获益(Peake 和Wang ,2018 )。
本文提出了一种独特的模型:基于 BERT 的神经网络协同过滤和固定长度连续词项解释(BENEFICT)。我们的模型使用两个并行网络同时学习用户和物品的表示。为了解决第一个缺点,我们将BERT 作为每个并行网络的关键组件。BERT 使我们能够提取更有意义、更具上下文关联性的特征,这些特征可以适应任意上下文;而主流词嵌入无法提取这些特征( Pilehvar 和 Camacho Collados ,2019 ;Zakbik 等人,2019 )。BERT 还可以保留词频信息,这使得 CNN 在我们的模型中成为不必要的组件。一旦学习到用户和物品的表示,它们就会在共享的隐藏空间中连接起来,最终输入到最优的多层感知器(MLP)层堆栈中,这些 MLP 层作为 BENEFICT 的交互功能。
为了解决第二个缺点,我们在模型中引入了一个新的组件,该组件集成了BERT的自注意力机制和固定长度最大子数组问题(MSP)的实现,MSP被认为是一个经典的计算机科学问题。BERT在每个编码器层应用自注意力机制,从而为每个词元生成自注意力权重。这些权重被传递 。
通过前馈网络将信息传递到后续的编码器层。我们认为,这些自注意力权重可以作为解释评分预测的基础。基于此前提,MSP 选择一个具有最大自注意力权重总和的连续标记片段或子数组。
1.1 贡献
我们的工作旨在填补研究空白,提出一种既准确又可解释的解决方案。我们提出了一种新颖的模型,该模型独特地整合了三个关键要素:BERT、MLP 和 MSP,用于提取评论特征、建模用户与商品之间的交互,并生成可能的解释。据我们所知,BENEFICT是首批利用 BERT 进行神经协同过滤 (NCF) 的评论推荐模型之一。此外,据我们所知,BENEFICT 也是首批将神经协同过滤 (NCF) 框架(He 等人,2017 )的一部分重新用于基于评论的显式协同过滤的用户-商品交互函数的模型之一。而且,我们的实验表明,与其他最先进的推荐模型相比,我们的模型在评分预测方面取得了更好的结果。
2 相关工作和概念
设计协同过滤(CF)模型包含两个关键步骤:学习用户和物品的表示,以及基于这些表示对用户-物品交互进行建模(He et al. , 2018 )。在神经网络出现之前,矩阵分解(MF)是主流模型,它将用户和物品表示为潜在因子(称为嵌入)的向量,并使用内积运算对用户-物品交互进行建模。然而,由于内积运算并非从真实世界数据中学习丰富而复杂模式的最佳方法,因此其性能较差( He et al. , 2018 )。为了解决这个问题,神经网络(NN)已被集成到推荐架构中。为将神经网络应用于协同过滤奠定基础的早期工作之一是神经网络协同过滤(NCF)( He et al. , 2017 )。他们的框架最初是为基于评分的隐式协同过滤(CF)而实现的,它通过使用多层感知器(MLP)层作为交互函数来学习用户和物品之间的非线性交互,从而赋予其高度的非线性和灵活性,使其能够学习有意义的交互。在利用MLP层方面,出现了两种常见的设计:放置
144
MLP 可以构建在连接的用户-物品嵌入(He 等人,2017 ;Bai 等人,2017 )或用户和物品嵌入的元素级乘积(Zhang 等人,2017 ;Wang 等人,2017 )之上。
就评分预测而言,两个值得关注的推荐模型已取得了显著的、最先进的预测性能。DeepCoNN是第一个将用户和商品信息联合表示在评论中的深度模型(Zheng 等人,2017 )。它由两个并行的、基于卷积神经网络(CNN)的网络组成。一个网络通过分析用户撰写的所有评论来学习用户行为,另一个网络则通过探索商品收到的所有评论来建模商品属性。这两个网络通过一个共享层连接,并使用因子分解机来捕获用户与商品之间的交互。第二个模型是 NARRE,它与 DeepCoNN 有一些相似之处。NARRE 也由两个并行的网络组成,分别用于用户建模和商品建模,并分别使用 CNN 来处理评论(Chen等人,2018 )。与DeepCoNN 将评论拼接成一个长序列的方式不同,NARRE 模型引入了一种注意力机制,以注意力权重的形式学习评论级别的有用性。这些权重被整合到用户和物品表示中,以提高嵌入质量和后续的预测精度。DeepCoNN 和 NARRE 都采用了传统的词嵌入方法。
其他相关研究声称能够解释推荐结果,例如EFM (Zhang et al. , 2014 )、sCVR(Ren et al. , 2017 )和TriRank(He et al. , 2015 )。这些模型首先通过对评论进行短语级情感分析来提取方面和观点。之后,它们根据与用户兴趣相对应的产品特征生成特征级解释(Chen et al. , 2018 )。然而,这些模型存在一些局限性:情感分析和特征提取需要人工预处理,而且解释仅仅是从评论文本中提取词语或短语(Zhang et al. , 2014 ; Ren et al. , 2017 )。这也会产生扭曲评论原始含义的意外后果(Ribeiro et al. , 2016 ; Chen et al. , 2018 )。另一个局限性在于,文本相似性仅基于词汇相似性;这意味着语义意义被忽略了(Zheng et al. ,2017 ;Chen et al. ,2018 )。
3 方法论
如图1所示,BENEFICT 包含两个平行网络,分别用于建模用户和物品的嵌入向量,这两个网络都使用了 BERT 模型。以下我们将仅展示用户建模过程,因为物品建模过程与之类似,唯一的区别在于它们的输入。
3.1 输入层和 BERT 编码
给定一组用户撰写的评论V <sub>u </sub> = {V <sub> u1 </sub> , V <sub> u2 </sub> , ..., V<sub> uj</sub> } ,其中j表示用户u的评论总数,V<sub> u</sub>被输入到预训练的 BERT BASE模型中,以对评论进行编码并获得其各自的上下文表示。BERT BASE由 12 个编码器层和 12 个自注意力头组成(Devlin 等人,2018 )。它的隐藏层大小为 768,我们将在后续内容中直接将其用作固定的嵌入维度。此外,BERT 要求每条评论都遵循特定的格式。为此,该模型对评论的输入序列应用 WordPiece 分词(Wu 等人,2016 )。该格式由词嵌入、段嵌入、位置嵌入和填充掩码组成。由于评分预测并非句子配对任务,BERT 将每条评论视为一段连续的文本片段。通常,BERT 支持的最大序列长度为 512 个词元。在本研究中,我们使用较短的 256 个词元长度以节省大量内存。因此,每个输入序列都会相应地进行截断或填充。
新格式化的输入序列随后经过一系列Transformer编码器,以获得评论的上下文表示:h [CLS] ,u = {h [CLS] ,u1 , h [CLS] ,u2 , ..., h [CLS] ,uj } ,其中h [CLS] ,u∈Rj × 768 。我们利用特殊标记[CLS]的隐藏状态作为评论的聚合序列表示或池化上下文嵌入(Devlin等人,2018)。理论上,可以选择任意编码器层来提供[CLS]的隐藏状态作为评论的表示。我们选择第十二层作为我们方法的编码器层;先前的研究表明,它的预测能力在所有层中最佳(Sun等人,2019 )。
3.2 嵌入生成、多层感知器和预测
用户嵌入(用户特征向量)P u ∈ R 1 × 768是通过计算由用户撰写的评论的[CLS]表示的平均值得到的。
145
用户u由以下公式给出。类似地,物品嵌入(物品特征向量)Q i ∈ R 1 × 768可以从物品建模网络生成。
P u = 1 j X j
h [CLS] ,ut (1)
t = 1
此外,引入多层感知器(MLP)的目的是学习用户和物品表示之间的交互作用,并对协同过滤(CF)效应进行建模,而仅使用向量拼接或逐元素乘法无法充分涵盖这些交互作用( He et al. , 2017 )。在拼接后的用户-物品嵌入之上添加一定数量的隐藏层,可以提供更大的灵活性和非线性。形式上,BENEFICT 的 MLP 组件定义如下:
h 0 = P u , Q i T
其中,Tr指的是训练样本或实例,Rui是用户u对项目i给出的真实评分。此外,我们采用带权重衰减的自适应矩估计(Adaptive Moment Estimation with weight decay ,简称 AMES)或 AdamW (Loshchilov 和 Hutter ,2018 )来优化损失函数。AdamW 基于原始的 Adam 优化器,并在训练过程中利用了自适应学习率的优势。这使得选择合适的学习率变得更加容易,从而加快了收敛速度(Chen 等人,2018 )。与 Adam 不同的是,AdamW 实现了一种权重衰减修正,这是一种正则化技术,可以防止权重过大,并已被证明能够获得更好的训练损失和泛化误差(Loshchilov 和 Hutter ,2018 )。
3.4 解释生成
BERT的Transformer编码器堆栈也
h 1 = ReLU ( W 1 h 0 + b 1 ) h L = ReLU ( W L h L− 1 + b L ) R ˆ ui = W L +1 h L + b L +1
(2)
提供了一系列自注意力权重,这些权重由 ken 赋予评论文本中的每个标记。我们特别感兴趣的是[CLS]使用第 12 个权重对每个评论标记赋予的 注意力。
其中h 0 ∈ R 1 × 1536是共享隐藏空间中的连接用户-物品嵌入; h L表示第 L层 MLP;W L和b L分别表示第 L层的权重矩阵和偏置向量;R ˆ ui表示用户u对物品i的预测评分。对于MLP 层的激活函数,我们选择修正线性单元 (ReLU),它通常比其他激活函数(例如 tanh 和 sigmoid)具有更好的性能(Glorot等人,2011 ;He 等人,2016,2017 )。
在结构方面,我们模型的MLP组件采用塔式结构,底层最宽,后续每一层的神经元数量都逐渐减少。其背后的原理是,MLP可以通过减少顶层隐藏单元的数量来学习更具抽象性的数据特征(He et al. , 2016 )。在我们实现的三层MLP中,从底层到顶层的神经元数量遵循以下模式:1536(级联嵌入)→ 768 (MLP第一层)→ 384(MLP第二层)→ 192(MLP第三层)→ 1(预测层)。
3.3 学习
在模型训练过程中,损失函数是均方误差(MSE),其公式如下:
该层的多个注意力头。给定一个由 WordPiece 分词器从评论V uj中生成的输入标记序列F uj,一组注意力权重表示如下:
α [ CLS ] ,uj = {αk1 ( Fuj ) , αk2 ( Fuj ) , ... , αkg ( Fuj ) } ( 4)其中k是特定编码器层中的注意力头,αkg是[ CLS]对输入序列Fuj中第 g个 WordPiece 标记的注意力。编码器层中有 12 个注意力头,对应于[CLS]标记对每个标记的12 个不同的注意力权重。对于给定的标记g ,应用以下公式将权重压缩为单个值:
ComAtt g = X 12
α k g ( F uj ) (5)
k =1
然后,我们将生成解释的任务重新表述为固定长度的MSP问题。在基本意义上,MSP选择一个连续数组元素片段(即一个连续的词元子数组),使其在所有其他片段中具有最大的可能总和(Bae ,2007 )。在本文中,我们为MSP引入约束N ; N是一个固定值,与解释的长度相关。形式上,每个评论的压缩注意力权重集。
MSE = 1 |T r| X u,i∈T r
( Rui − Rˆui ) 2 ( 3 )
由以下数组给出:
A uj = [ ComAtt 1 , ComAtt 2 , ..., ComAtt g ] (6)
146
均方误差损失
MLP 层 L
多层
...
ReLU
感知器
MLP 第 2 层
ReLU
MLP 第一层
解释生成 解释生成连接
MSP
压缩注意力
BERT ……
用户/项目嵌入生成
伯特
输入层编码
BERT ……
MSP
压缩注意力
用户建模 项目建模图 1:提出的 BENEFICT 架构。
数据集 #评论 #用户 #商品
玩具和游戏 167,597 19,412 11,924 数字音乐 64,706 5,541 3,568 Yelp 密集型店铺 159,114 8,919 7,122 Yelp 稀疏型店铺 229,907 45,981 11,537
表 1:数据集统计摘要。
目标是找到使以下值最大化的标记索引x和y : X y
A uj [ t ] (7)
t = x
这取决于1 ≤ x < y ≤ 256和( y − x ) + 1 = N的要求。最后,针对审查V uj生成的解释表示如下:
EXP uj = Concat ( F uj,x , F uj,x +1 , ..., F uj,y ) (8)
4个实验
在本节中,我们进行相关实验,旨在回答以下研究问题:
研究问题1:BENEFICT 的性能是否优于其他最先进的推荐模型?
研究问题2:学习用户-物品交互 的最佳配置是什么?
研究问题3:我们的模型能否产生人类可以接受的解释?
4.1 数据集和实验设置
表1总结了本研究中使用的四个来自不同领域的公开数据集。其中两个数据集分别是 Amazon 5-core<sup> 1</sup>:玩具和游戏(包含近 16.8 万条评论)以及数字音乐(包含约 6.5 万条评论)(McAuley 等人,2015 )。这些数据集被称为 5-core 数据集,其中每个用户和商品都包含五条评论。我们还使用了Yelp<sup> 2 </sup>,这是一个大规模的餐厅反馈和评分数据集。我们分别使用了其原始的稀疏版本和 5-core 的密集版本,分别包含约 16 万条和 23 万条评论。所有数据集中的评分范围均为 [1, 5]。我们将每个用户-商品对数据集随机划分为训练集(80%)、验证集 (10%) 和测试集 (10%)。在我们的实验中,我们对以下超参数进行了穷举网格搜索:训练轮数 [1, 20] 和多层感知器 (MLP) 层数 [0, 3]。学习率和权重衰减均设置为 [此处应填写具体数值] 。
1 http://jmcauley.ucsd.edu/data/amazon/
2 https://github.com/danielfrg/kaggle- yelp- recruiting 竞赛
147
模型玩具和游戏
数字音乐
Yelp 密集
Yelp 稀疏
平均的
DeepCoNN 0.8971 0.8972 1.0311 1.2006 1.0065 NARRE 0.8840 0.8997 1.0312 1.1770 0.9979 BENEFICT 0.8348 0.8750 0.9963 0.9764 0.9206
收益变化 5.57% 2.47% 3.38% 17.04% 7.11%
表 2:推荐模型的 RMSE 对比。最佳 RMSE 值以粗体突出显示。最后一行显示了 BENEFICT 相对于性能更优的基线模型所取得的改进。
0.001。由于内存限制,批处理大小为
固定为 32。我们选择模型配置(即,
(网格点)具有最佳均方根误差
在验证集上进行均方根误差 (RMSE) 计算。我们使用测试集。
用于评估模型的最终性能。
4.2 基线和评估指标
为了验证 BENEFICT 的有效性,我们……
选择另外两个最先进的模型作为基线:
• DeepCoNN (Zheng等人,2017 ):它是一种深度神经网络。
基于协同神经网络模型
两个并行的卷积神经网络分别用于学习用户和物品特征
以联合方式生成真实向量。
• NARRE (Chen 等人,2018 ):与 Deep 类似
CoNN,它是一种神经注意力回归
该模型集成了两个并行的 CNN 和一个注意力机制,用于对潜在特征进行建模。
之后,我们计算 RMSE(一种广泛用于评分预测的指标),以评估模型的各自性能。
s 1
图 2:使用不同用户-物品交互函数的 BENEFICT 变体的 RMSE 比较。实线代表基于级联-MLP 的交互函数。虚线代表基于元素级乘积 (EWP) 和 MLP 的交互函数。
导致 BENEFICT 取得改进
RMSE =
|T s|
X
u,i∈T s
( Rui − Rˆui ) 2 ( 9 )
接近7%。这些结果验证了我们的假设,即使用BERT衍生的嵌入和表示,被认为在语义上更具优势。
公式中,T s表示测试样本或用户-物品对实例。
4.3 预测结果及讨论
表2报告了 BENEFICT 和两个基线模型的 RMSE 值,最后一行(以∆ BENEFICT表示)显示了我们的模型相对于更优基线模型的改进幅度。结果表明,BENEFICT在所有数据集上均始终优于基线模型;我们的模型平均 RMSE 得分为 0.9206,而 DeepCoNN 和 NARRE 的平均 RMSE 得分分别为 1.0065 和 0.9979。平均而言,这……
与传统方法相比,BERT 更有意义,可以显著提高评分预测准确率,并且 BERT 还可以弥补主流词嵌入和 CNN 的 局限性。
此外,采用两个版本的Yelp数据集的目的是为了比较推荐模型在密集数据集和稀疏数据集上的性能。如表2的第四列和第五列所示,当DeepCoNN和NARRE尝试对原始的稀疏Yelp数据集进行预测时,它们的RMSE值均有所恶化。对于DeepCoNN,其RMSE值从密集版本的1.0311增加到1.2006。
148
图 3:基于 US1 的评委给出的有用性评分分布。
NARRE 也呈现出类似的趋势,其 RMSE从 1.0312增加到1.1770。有趣的是,BENEFICT 的结果则完全不同;其 RMSE从 0.9963 下降到 0.9764。我们的模型改进了 17.04%,高于其他三个数据集上 BENEFICT 的改进幅度。我们认为这些结果归功于 Yelp-Sparse 数据集包含更多信息,这些信息可以被 BENEFICT 成功利用来建模评论。值得注意的是,Yelp-Sparse 数据集包含近 23 万条评论,而 Yelp-Dense 数据集包含近 16 万条评论。总之,这些结果表明,无论数据集的固有稀疏性或密度如何,我们的模型都能最佳地进行预测。
4.3.1 最优交互函数
BENEFICT 在共享隐藏空间中,于拼接后的用户-物品嵌入之上构建了一个多层感知器(MLP)。我们将其与模型的另一个变体进行比较,该变体在用户和物品表示的元素级乘积之上也构建了一个 MLP。我们使用不同数量的隐藏层(0 到 3)来检验它们的性能。需要注意的是,零层的 MLP 指的是共享隐藏空间直接投影到预测层。
图2显示,在所有 MLP 层和数据集上,BENEFICT 对拼接特征的使用率均显著高于逐元素乘法。这一结果验证了使用拼接特征的积极作用。
图 4:基于 US2 的评委给出的有用性评分分布。
为了学习用户与物品之间的交互,需要使用多层感知器(MLP)。此外,与He 等人(2017 )的研究结果一致,增加多层感知器层数对于神经显式协同过滤也同样有效。似乎存在一个趋势:增加隐藏层数意味着均方根误差(RMSE)值降低(且性能更佳)。简单地将共享的隐藏空间投影到预测层是不够的,其效果较弱,这可以从其相对较高的 RMSE 值看出。相反,使用三个 MLP 层通常会获得最低的 RMSE值。唯一的例外是 Digital Music数据集,在该数据集上,使用两个层即可获得最佳的 RMSE 值。此外,尽管逐元素乘法不如拼接,但前者也能从增加MLP 层数中获益。总之,所有这些发现都验证了将 MLP 作为整个 BENEFICT 模型不可或缺的一部分的 必要性。
5. 可解释性研究
5.1 人工对解释的评估
为了验证 BENEFICT 生成的解释在现实生活中的有效性,我们还使用TF-IDF和TextRank生成了可能的解释。应用 TF-IDF 可以确定哪些词在文档语料库中更受欢迎或更相关(Rajaraman 和 Ullman ,2011 )。为了保证评估的公平性,我们只选择TF-IDF 得分最高的N个词,其中N的值与 BENEFICT 中引入的约束条件相同。
149
美国分数说明
TF-IDF :有些歌确实相当……我敢说,很抓耳。专辑里甚至还有一首有望打进前30的单曲(《Only Time Will Tell》)。但这难道不是卡尔·帕尔默(Carl Palmer)吗?他可是70年代三张专辑的演唱者,也是古典打击乐手詹姆斯·布莱兹( James Blades)的忠实拥趸。这难道不是史蒂夫·霍斯(Steve Hose)吗?他也是70年代三张专辑的演唱者,还发行过几张严肃的个人专辑。约翰·韦顿( John Wetton)不是在74年那张严肃的《Red》专辑里担任主角吗?这三个人怎么可能聚在一起,创作出这种面向成人的体育场摇滚?别忘了帕尔默早年是在亚瑟·布朗(Arthur Brown)和原子公鸡乐队(Atomic Rooster)的“疯狂世界”里起步的。还有韦顿在尤里亚·希普乐队(Uriah Heep)那段古怪的时期。杰夫·唐斯(Geoff Downes)名义上是“Buggles”乐队的成员之一,而这个乐队的作品寥寥无几,却毫不掩饰地展现了流行乐的本质。Asia的首张专辑风格与UK乐队1978年的同名专辑颇有几分相似,尽管前者明显更加主流。我很喜欢这张专辑,它是我听过的Asia所有作品中最好的一张。我更希望这张专辑的音乐能更有野心一些;感觉它似乎完全是为了最大化商业回报而精心打造的,而UK乐队则没有这种感觉。不过,它仍然是一张不错的、轻松易听的专辑。
TextRank :有些歌确实相当……我敢说,很抓耳。专辑里甚至还有一首有望打入前30名的单曲(《唯有时间会证明一切》)。但这难道不是卡尔·帕尔默吗?就是那位70年代发行过三张专辑的歌手,也是古典打击乐手詹姆斯·布莱兹的忠实拥趸?而且,这难道不是史蒂夫·霍斯的作品吗……
优点:……这张Asia的首张专辑的风格与UK乐队1978年的同名专辑颇为相似,尽管它明显更加主流。我喜欢这张专辑,它是我听过的所有Asia作品中最好的一张。我更希望他们的音乐能更有野心一些;感觉这张专辑的一切都是为了最大化商业回报而精心打造的,而UK乐队则没有这种感觉……
US1:1.5 US2:1.5
US1:2 US2:2
美国1:4 美国2:4
表 3:TF-IDF、TextRank 和 BENEFICT 从特定用户评论中生成的示例解释(黄色高亮显示)。第二列包含评委给出的 US1 和 US2 平均分。
解释生成模块。另一方面,TextRank 是一种完全无监督的、基于图的抽取式摘要算法(Mihalcea 和 Tarau ,2004 )。它的目标是对构成给定评论文本的整个句子进行排序。此外,为了保证评估的一致性,对于每条评论, 我们只取长度小于或等于N的排名最高的句子。
然后,我们请两位人类评委对总共 90 个解释进行评估,其中TF-IDF、TextRank 和 BENEFICT 各有 30 个解释,N = 20。我们指示他们根据以下有用性陈述 (US) 对每个解释进行评分,评分采用五点李克特量表,从 1(非常不同意)到 5(非常同意)。
US1 :该解释体现了顾客在评论 中表达的偏好(喜欢或不喜欢)的本质。
US2 :此解释有助于您或任何顾客在未来 决定是否购买该特定商品。
我们进一步检验人工评估结果,方法是确定两位评委 之间的一致性强度。这是通过计算得出的。
二次加权Kappa系数(QWK)用于衡量评分者间的一致性,适用于有序或等级变量。Kappa系数的取值范围为-1到1,其中1表示完全一致,0表示随机一致,负值表示一致性低于随机水平,例如不一致。具体而言,系数0.01-0.20表示轻微一致,0.21-0.40表示一般一致,0.41-0.60表示中等一致,0.61-0.80表示高度一致,0.81-0.99表示几乎完全一致(Borromeo和Toyama ,2015 )。
5.2 可解释性结果与讨论 5.2.1 总体评估
图3总结了评委们基于 US1 对解释进行评估后给出的分数。他们发现,近 58% 的 BENEFICT 生成的解释抓住了客户偏好的本质(即有用性评分达到4 分或 5 分的解释)。其次是 TextRank,其生成的解释中约有 52% 符合要求,而 TF IDF 生成的解释中只有 1.67% 符合要求。关于 US1 的评分者间一致性,
150
表5显示,评委们对BENEFICT指标的评价基本一致(Kappa值为0.2019)。另一方面,他们对TF-IDF和TextRank指标的评价则略有分歧,QWK值分别为0.1924和0.0625。如表4所示,我们的模型平均有用性得分为3.45,优于TextRank(3.26)和TF-IDF (2.05)。
图4显示了评委基于 US2 的评估分数。有趣的是,评委们表示,BENEFICT 和 TextRank 生成的解释中,近 63% 对未来的客户有帮助。即使将低分解释也纳入考量,BENEFICT 仍然优于 TextRank;前者的平均有用性得分为 3.61,而后者为 3.40。此外,评委们对我们模型生成的解释的评价较为一致(Kappa 值为 0.4705)。与此同时,他们对 TextRank 的评价则低于偶然一致(Kappa 值为 -0.0073)。这意味着 TextRank 的大部分高分都来自一位评委。最后,评委们观察到,TF-IDF 的解释中只有 8.33% 是有帮助的,平均有用性得分为 2.18,QWK 值为 0.1921,这意味着他们之间的一致性很低。
这些结果表明,BENEFICT 的解释生成模块能够有效地提供有用的解释,捕捉客户偏好的本质,并帮助未来的客户做出购买决定。
5.2.2 具体示例比较以示例为例,我们在表3中突出显示了作为解释的词语。TF-IDF 生成的解释可以捕捉到一些重要的词语,例如“unashed”(不羞愧的)和“undemanding”(不苛求的)。然而,由于其词袋模型的特性,它包含了许多其他不必要的词语,这些词语可能对解释没有贡献。因此,评委认为它没有帮助。其次,TextRank 生成的解释似乎也没有捕捉到用户喜欢或不喜欢的本质。它似乎对顾客决定将来是否购买该商品没有帮助。尽管 TF-IDF 捕捉到了更多的形容词和重要词语,但评委仍然给予 TextRank 更高的有用性评分。我们认为这是因为人类天生倾向于选择表达完整思想且噪声较少的句子。最后,BENEFICT 生成的解释……
方法 US1 平均值 US2 平均值
TF-IDF 2.05 2.18
TextRank 3.26 3.40
收益 3.45 3.61
表 4:评委根据 US1 和 US2 评估的解释的平均有用性得分。
方法 US1 QWK US2 QWK
TF-IDF 0.1924 0.1921 TextRank 0.0625 -0.0073 受益 0.2019 0.4705
表 5:QWK 值表示 US1 和 US2 的法官间一致性强度。
它表达了一个近乎完整的想法;请注意,它并非一个完整的句子,而是一组连续的词元,旨在最大化注意力权重之和。这使得 BENEFICT 能够捕捉到诸如“喜欢这张专辑”和“最棒的”之类的重要短语。因此,评委们一致认为,它抓住了顾客偏好的精髓,并有助于顾客在未来做出购买决策。
6 结论与未来工作
我们成功实现了一种新颖的推荐模型,该模型独特地融合了BERT、MLP和MSP。BENEFICT的预测能力已通过在亚马逊和Yelp数据集上进行的实验得到验证,其性能始终优于其他最先进的模型。此外,其解释生成能力也得到了人工评判的认可。我们认为,我们的工作为弥合准确性和可解释性之间的研究差距提供了一条途径。未来,我们将考虑在用户-物品建模过程中引入其他神经组件,例如注意力机制,以进一步改进模型。我们还计划提升所生成解释的表达能力和整体质量。
致谢
首先,我们衷心感谢各位匿名审稿人提出的宝贵意见和建议。同时,我们也由衷感谢可解释性研究的评委Ria Mae Borromeo博士和Verna Banasihan女士抽出宝贵时间参与评审工作。
151
参考
Sung Eun Bae. 2007. 广义最大子数组问题的顺序和并行算法。
白婷、温继荣、张俊、赵欣. 2017. 基于交互邻域的神经协同过滤模型. 2017 年 ACM 信息与知识管理会议论文集,第 1979-1982 页。
Ria Mae Borromeo 和 Motomichi Toyama. 2015. 自动情感分析与众包情感分析。第 19 届国际数据库工程与应用研讨会论文集,第 90-95 页。
Rose Catherine 和 William Cohen. 2017. Transnets:学习转换以实现推荐。第十一届 ACM 推荐系统会议论文集,第 288-296 页。
陈冲、张敏、刘义群、马绍平. 2018. 基于评论级解释的神经注意力评分回归. 2018 年万维网大会论文集,第 1583–1592 页. 国际万维网大会指导委员会.
Felipe Costa、Sixun Ouyang、Peter Dolog 和 Aonghus Lawlor。2018 年。自动生成自然语言解释。载于第 23 届智能用户界面国际会议论文集,第 57 页。ACM。
Jacob Devlin、Ming-Wei Chang、Kenton Lee 和 Kristina Toutanova。2018 年。BERT:用于语言理解的深度双向 Transformer 的预训练。arXiv预印本 arXiv:1810.04805 。
Xavier Glorot、Antoine Bordes 和 Yoshua Bengio。2011 年。深度稀疏整流神经网络。第十四届人工智能与统计学国际会议论文集,第 315-323 页。
何凯明、张翔宇、任绍庆、孙健. 2016. 用于图像识别的深度残差学习. IEEE计算机视觉与模式识别会议论文集,第770-778页。
何祥楠、陈涛、阚敏彦、陈晓. 2015. Trirank:基于建模方面的评论感知可解释推荐.第24届ACM信息与知识管理国际会议论文集,第1661-1670页. ACM.
何向南、杜晓宇、王向、冯田、唐金辉和蔡达成。 2018.基于外积的神经协同过滤。arXiv 预印本 arXiv:1808.03912 。
Xiangnan He、Lizi Liao、Hanwang Zhang、Liqiang Nie、Xia Hu 和 Tat-Seng Chua. 2017. 神经协同过滤。第 26 届万维网国际会议论文集,第 173-182 页。
Yehuda Koren、Robert Bell 和 Chris Volinsky。2009 年。推荐系统的矩阵分解技术。计算机,42(8):30–37。
Ilya Loshchilov 和 Frank Hutter. 2018. 修复 Adam 中的权重衰减正则化。
Julian McAuley、Christopher Targett、Qinfeng Shi 和 Anton Van Den Hengel。2015 年。基于图像的风格和替代推荐。载于第 38 届国际 ACM SIGIR 信息检索研究与发展会议论文集,第 43-52 页。
Rada Mihalcea 和 Paul Tarau. 2004. Textrank:为文本赋予秩序。载于2004 年自然语言处理实证方法会议论文集,第 404-411 页。
Andriy Mnih 和 Russ R Salakhutdinov. 2008. 概率矩阵分解。载于《神经信息处理系统进展》,第 1257–1264 页。
Cataldo Musto、Marco de Gemmis、Giovanni Semeraro 和 Pasquale Lops. 2017. 基于用户评论方面情感分析的多准则推荐系统。第十一届 ACM 推荐系统会议论文集,第 321-325 页。ACM。
Georgina Peake 和 Jun Wang. 2018. 解释挖掘:推荐系统潜在因子模型的事后可解释性。载于第 24 届 ACM SIGKDD 国际知识发现与数据挖掘会议论文集,第 2060–2069 页。ACM。
Mohammad Taher Pilehvar 和 Jose Camacho Collados. 2019. Wic:用于评估上下文敏感意义表示的词上下文数据集。载于2019 年北美计算语言学协会会议论文集:人类语言技术,第 1 卷(长篇和短篇论文),第 1267-1273 页。
Anand Rajaraman 和 Jeffrey David Ullman. 2011.海量数据集挖掘. 剑桥大学出版社。
任兆春、梁尚松、李丕吉、王帅强、Maarten de Rijke. 2017. 基于可解释推荐的社交协作观点回归。第十届ACM国际网络搜索与数据挖掘会议论文集,第485-494页。ACM。
152
Marco Tulio Ribeiro、Sameer Singh 和 Carlos Guestrin. 2016. 我为什么要信任你?:解释任何分类器的预测。载于第 22 届 ACM SIGKDD 国际知识发现与数据挖掘会议论文集,第 1135–1144 页。ACM。
孙驰、邱西鹏、徐一革、黄玄静。 2019.如何微调bert进行文本分类?arXiv 预印本 arXiv:1905.05583 。
Yi Tay、Anh Tuan Luu 和 Siu Cheung Hui。2018 年。用于推荐的多指针协同注意力网络。第 24 届 ACM SIGKDD 国际知识发现与数据挖掘会议论文集,第 2309-2318 页。
王倩倩、李思、陈光. 2018a. 基于词驱动和上下文感知的评论建模用于推荐.第27届ACM国际信息与知识管理会议论文集,第1859-1862页。
王先辰、刘洪涛、王培义、吴方钊、徐红艳、王文军、谢星. 2019. 基于层次注意力机制和潜在因子的神经评论评分预测.高级应用数据库系统国际会议论文集,第363-367页. Springer出版社.
王翔、何祥楠、冯福丽、聂立强、蔡达生. 2018b. Tem:用于可解释推荐的树增强嵌入模型。载于2018 年万维网会议论文集,第 1543–1552 页。国际万维网会议指导委员会。
王翔、何祥楠、聂立强、蔡达生。2017。物品丝绸之路:向社交用户推荐信息领域的物品。载于第 40 届国际 ACM SIGIR 信息检索研究与发展会议论文集,第 185-194 页。
Yonghui Wu、Mike Schuster、Zhifeng Chen、Quoc V Le、Mohammad Norouzi、Wolfgang Macherey、Maxim Krikun、Yuan Cao、Qin Gao、Klaus Macherey 等。2016 年。谷歌的神经机器翻译系统:弥合人类与机器翻译之间的差距。arXiv预印本 arXiv:1609.08144 。
Alan Zakbik、Tanja Bergmann 和 Roland Vollgraf。2019 年。用于命名实体识别的池化上下文嵌入。载于2019 年北美计算语言学协会会议论文集:人类语言技术,第 1 卷(长篇和短篇论文),第 724-728 页。
Yongfeng Zhang、Qingyao Ai、Xu Chen 和 W Bruce Croft。2017 年。基于异构信息源的 top n 推荐联合表示学习。载于2017 年 ACM 信息与知识管理会议论文集,第 1449-1458 页。
张永峰和陈旭. 2018. 可解释推荐:综述与新视角. arXiv 预印本 arXiv:1804.11192 。
Yongfeng Zhang、Guokun Lai、Min Zhang、Yi Zhang、Yiqun Liu 和 Shaoping Ma. 2014. 基于短语级情感分析的可解释推荐的显式因子模型。第 37 届 ACM SIGIR 信息检索研究与发展国际会议论文集,第 83-92 页。ACM。
Lei Zheng、Vahid Noroozi 和 Philip S Yu. 2017. 使用评论对用户和物品进行联合深度建模以实现推荐。载于第十届 ACM 国际网络搜索与数据挖掘会议论文集,第 425–434 页。ACM。
0 Comments