基于在线评论的产品选择方法

引用本文 [复制中英文]

梁霞 , 姜艳萍 , 高梦 . 基于在线评论的产品选择方法[J]. 东北大学学报:自然科学版, 2017, 38(1): 143-147.

LIANG Xia , JIANG Yan-ping , GAO Meng . Product Selection Methods Based on Online Reviews[J]. Journal Of Northeastern University Nature Science, 2017, 38(1): 143-147. DOI: 10.3969/j.issn.1005-3026.2017.01.029.

[复制英文]

基金项目

国家自然科学基金资助项目(71271050, 71571040)

作者简介

梁霞(1986-)，女，山东济南人，东北大学博士研究生；姜艳萍(1968-), 女, 辽宁沈阳人, 东北大学教授, 博士生导师。

文章历史

收稿日期: 2015-08-06

Contents Abstract Full text Figures/Tables PDF

基于在线评论的产品选择方法

梁霞, 姜艳萍, 高梦

东北大学工商管理学院，辽宁沈阳 110169

收稿日期: 2015-08-06

基金项目: 国家自然科学基金资助项目(71271050, 71571040)。

作者简介: 梁霞(1986-)，女，山东济南人，东北大学博士研究生；姜艳萍(1968-), 女, 辽宁沈阳人, 东北大学教授, 博士生导师。

摘要: 随着大数据时代的到来，电子商务网站规模迅速扩大，产品的种类和数量已成海量规模，消费者需要高效的产品选择方法帮助他们做出决策.为了提出基于在线评论的产品选择方法，首先，确定在线评论的效用，并对产品属性进行提取得到属性集合，在考虑评论效用的情况下确定属性权重；然后，对在线评论中的情感词进行分析，将消费者情感倾向表示为关于评价标度的概率分布；再依据随机占优准则得到两两产品关于每个属性的占优关系；进一步，通过PROMETHEE II方法对备选产品进行排序.最后，通过一个产品选择的实例说明该方法的可行性和实用性.

关键词：产品选择在线评论属性提取情感分析随机占优

Product Selection Methods Based on Online Reviews

LIANG Xia, JIANG Yan-ping, GAO Meng

School of Business Administration,Northeastern University,Shenyang 110169, China

Corresponding author: JIANG Yan-ping, E-mail: ypjiang@mail.neu.edu.cn

Abstract: With the advent of the big data era, the scale of e-commerce platforms has expanded rapidly and consumers need more efficient product selection methods, which would help make decisions quickly in the massive kinds and a number of products. Therefore, a method of product selection based on online reviews is proposed. First, the utility values of the online reviews are calculated. By extracting the product attributes, the attribute set for product selection is obtained. Considering the utility values of the online reviews, the weight vector of attributes is determined. Second, by analyzing the sentiment words, consumers’ sentiment preferences are expressed in the format of probability distribution about sentiment levels. Based on the principle of stochastic dominance, the dominance relationships of any pairwise products on each attribute are determined. Third, by using PROMETHEE II, the ranking result of alternative products is obtained. Finally, an example of product selection is given to illustrate the feasibility and practicability of the proposed method.

Key Words: product selection online review attribute extraction sentiment analysis stochastic dominance

在线评论包含了消费者对已购产品或服务的体验和评价，是消费者决策的重要参考依据.而在线评论数量日益骤增，消费者进行产品选择时很难查看所有的在线评论.因此，如何有效利用在线评论帮助消费者进行产品选择成为重要问题.

目前，面向在线评论的产品选择问题受到了国内外学者的广泛关注.Kang等^[1]提出利用在线评论对移动App产品的顾客满意度进行测量，将VIKOR与情感分析相结合对备选的App排序.Chen等^[2]基于模糊AHP和TOPSIS建立了能够提供产品选择服务的网上购物系统.Chen等^[3]利用主题模型对产品评论进行挖掘，得出消费者关心的产品属性，通过TOPSIS方法对产品进行排序.Huang等^[4]提出了基于意见挖掘的产品排序系统.Najmi等^[5]通过对消费者评论进行情感分析，提取产品属性及确定权重，建立了网上购物产品排名系统.虽然已有学者将在线评论引入到产品选择中来，但对在线评论的处理还比较粗糙.一方面，已有研究忽略了在线评论的效用影响；另一方面，对评论中的情感词多数采取赋值打分与加和的方法进行处理，这相当于将情感词得分取平均值，不能充分反映评论所承载的原始信息.

本文通过对产品的大量在线评论进行处理，在考虑在线评论效用的基础上，提取产品属性及其权重，分析消费者情感态度，给出将消费者情感倾向表示为随机信息的方法.基于随机占优和PROMETHEE II方法，给出对备选产品进行排序的方法.

1 问题描述

考虑某电子商务网站的产品选择问题.设备选产品集为X={X₁,X₂,…,X_m}；E_i={e_i¹,e_i²,…,e_i^Q_i}表示产品X_i的在线评论集合，其中，e_i^q表示关于X_i的第q条评论，i=1,2,…,m;q=1,2,…,Q_i；网站对评论者的信用划分为G个等级，g_i^q表示e_i^q对应的评论者的信用等级；help_i^q表示评论e_i^q的支持数，help_i^*=maxq{help_i^q}表示关于X_i评论的最大支持数；T_i^q表示评论发表时间，T_now表示产品选择时间，T_i^*表示产品X_i的最早评论时间，即T_i^*=minq{T_i^q}；C={C₁,C₂,…,C_n}表示在线评论中消费者关注产品的属性集合，产品属性C_j将从在线评论中提取和归类得到；w=(w₁,w₂,…,w_n)^T表示产品属性的权重向量，满足w_j≥0且.

本文要解决的问题是：依据产品X_i的在线评论信息E_i，如何提取出属性C和确定属性权重向量w，对m个备选产品进行排序和优选.

2 决策分析方法

首先，剔除在线评论中质量较低的评论，利用汉语词法分析系统ICTCLA^[6]进行分词和词性标注.然后，给出基于随机占优的产品选择方法.

2.1 在线评论效用确定

由于在线评论内容质量参差不齐，为了更加准确地找出产品属性并确定其权重，需要对在线评论的效用进行度量.本文着重考虑评论者的信用等级、评论的支持数和评论时效性对评论效用的影响.设u₁(e_i^q)，u₂(e_i^q)和u₃(e_i^q)分别表示评论u_i^q关于评论者的信用等级、评论的支持数和评论时效产生的评论效用，其计算方法如下：

1) 评论者的信用等级效用u₁(e_i^q)为

(1)

2) 评论支持数效用u₂(e_i^q)为

(2)

当help_i^*=0时，令u₂(e_i^q)=0，则0≤u₂(e_i^q)≤1.

3) 评论时效性效用u₃(e_i^q)为^[4]

(3)

特别地，当T_i^q=T_i^*时，u₃(e_i^q)=0.37，可见，0.37≤u₃(e_i^q)≤1.进一步地，评论e_i^q的总效用为

(4)

其中，α,β,γ≥0且α+β+γ=1.

2.2 产品属性提取与权重确定

消费者的评论通常包括两种：一种是表达对产品的总体印象，如“这款手机真不错”，未针对某属性进行评价，本文视其为对各属性的评价相同且等于总评价.另一种是对产品某属性进行评价，如“这款手机电池很给力”.为了选出消费者主要关注的属性，本文选出累计效用较高的名词和名词词组，经专家的筛选和归类后，确定产品属性同义词.同时，将这些词按照属性归类，建立属性集合，记y_ij^q表示评论e_i^q中包含的属性集合中的属性同义词，若e_i^q中未提取出属性及同义词，则y_ij^q=φ，进而得到由属性同义词y_ij^q组成的产品属性C_j的集合.若一条评论中某属性出现的次数越多，则该属性的权值越高^[7]，利用统计的方法对各属性集合所在评论的效用进行累加.具体地，属性C_j的权重可表示为

(5)

其中：表示包含属性C_j集合的评论的总效用值.

值得指出的是，本文给出的属性权重是从在线评论中计算得来，在实际的网上产品选择问题中，消费者也可以根据自己的喜好直接给出属性权重.

2.3 情感倾向表示

1) 构建情感词典.本文以中文情感词典HowNet为基础，同时加入网络流行语，如：“给力”、“坑爹”、“垃圾”等^[8].令V⁺，V′和V^－分别表示褒义、中性和贬义的情感词集合，具体含义如表 1所示.

表 1 情感词及其情感态度 Table 1 Sentiment words and their attitudes

2) 判断情感词极性.本文将词性标注后的形容词作为情感词，利用语言技术平台LTP^[9]，分别进行依存句法分析，存储属性-情感词对，然后借助情感词典，记录属性-情感词对中情感词的极性.若无法在情感词典中找到对应的情感词，则人工确定其极性，再将其存储于情感词典中.设O^q表示评论e_i^q中关于属性C_j的情感词，P(O_ij^q)表示情感词O_ij^q的极性，即

(6)

3) 处理程度副词.消费者在线评论中的程度词用以加强情感强度.本文从HowNet中选取常用的程度词，按表达意义强烈的程度分为两个等级.令deg(O_ij^q)表示修饰O_ij^q的程度副词等级，deg(O_ij^q)=1,2，含义如表 2所示.

表 2 程度副词及其对应的等级 Table 2 Degree adverbs and their grades

4) 处理否定词.若情感词前出现表示否定意义的词，如：不、没有、并非等，则表示相反的极性.主要考虑两种情况：如果否定词是对另一个否定词进行否定，则表示肯定的意义，情感词极性不变；如果否定词是对情感词进行否定，则对情感词极性反转，通常来说否定词最多出现两次，令N表示情感词O_ij^q前否定词的个数，则N=1,2.

经过情感极性的判断和否定、程度副词的处理，评论e_i^q关于属性C_j表达的情感倾向Score_ij^q为

(7)

若评论e_i^q中未提取出关于属性C_j的情感词，则令Score_ij^q=φ.特别地，当评论e_i^q中没有提取出属性词，则视为该条评论对于各属性评价均相同.可见，当Score_ij^q≠φ时，Score_ij^q=－2,－1,0,1,2.

2.4 产品的排序与选择

记H={H¹=-2,H²=-1,H³=0,H⁴=1,H⁵=2}，表示在线评论的情感倾向等级的集合.为了更准确地描述产品在各情感倾向等级上的差异性，本文将消费者情感倾向表示为随机形式的评价信息.

首先，记ξ_ij表示产品X_i关于属性C_j的随机评价值，则ξ_ij的概率分布表示为

(8)

其中，

(9)

且 .则ξ_ij的累积分布函数为

(10)

然后，确定F_ij(x)和F_hj(x)的占优关系^[10]，即对$\forall $x∈[－2,2]，F_ij(x)一阶随机占优(SD₁) F_hj(x)，当且仅当F_ij(x)≠F_hj(x)，且H₁(x)=F_ij(x)－F_hj(x)≤0成立；F_ij(x)二阶随机占优 (SD₂)F_hj(x),当且仅当F_ij(x)≠F_hj(x)，且成立；F_ij(x)三阶随机占优(SD₃)F_hj(x),当且仅当F_ij(x)≠F_hj(x)，且成立.再建立关于属性C_j的随机占优关系矩阵R_j=[r_ih^j]_m×m，其中r_ih^j表示X_i相对于X_h关于属性C_j的随机占优关系^[10]，即

(11)

随机评价值ξ_ij的期望可以计算为

(12)

基于随机占优关系矩阵和PROMETHEE II方法，计算产品X_i对X_h关于属性C_j的优序度为

(13)

其中：i,h=1,2,…,m;i≠h;j=1,2,…,n;T=1,2,3;q_j为属性C_j的偏好阈值，由网站决策者给出.

进一步计算产品X_i相对X_h的总体优序度为

(14)

可见，0≤S(X_i,X_h)≤1，且S(X_i,X_h)越大，表示产品X_i对产品X_h优势程度越大.依据总体优序度S(X_i,X_h)，计算产品X_i优于和劣于其他产品的总体可信度，即“出流”Φ⁺(X_i)和“入流”Φ^－(X_i)，其计算公式如下：

(15)

(16)

Φ⁺(X_i)越大，产品X_i越优；ΦΦ^－(X_i)越小，产品X_i越优.最后，计算产品X_i的净流Φ(X_i)为

(17)

根据Φ(X_i)对产品进行排序，Φ(X_i)越大，相应的产品X_i越优.

3 算例分析

以国内某自营式电子商务网站中的笔记本电脑选择为例，产品及在线评论数据来源于数据堂 (http://datatang.com).消费者拟在该网站中选择一款笔记本电脑，根据个人喜好将价格设置为4 500~5 500元，屏幕尺寸为34 cm×24 cm，经初步筛选，出现了19款笔记本电脑.以下只选用其中5款产品进行计算，分别为戴尔(DELL)Ins14RR-5628X,联想(Lenovo)V4400u,ThinkPadE440(20C5S00800),惠普(HP)PavilionM4-1016TX和联想(Lenovo)G400 AM.5款产品评论共8 670条，每条获取的在线评论数据包括产品名称、评论用户、用户等级、购买时间、评论时间、评分、支持数、心得和标签.

经过去噪后得到5款笔记本评论分别为1 581，1 369，1 197，751和689条，共计5 587条.利用评论用户等级、评论时间及支持数可计算每条评论的效用U(e_i^q)，再运用本文的属性提取方法，综合专家意见，建立属性词及同义词表，包括消费者最关心的6个属性：做工质量(C₁)、性能(C₂)、美观性(C₃)、便携性(C₄)、性价比(C₅)和配置(C₆)，由式(1)~式(5)计算属性的权重向量为 w=(0.167,0.216,0.147,0.087,0.187,0.196).再由式(6)和式(7)，将情感词分为H={H¹,H²,H³,H⁴,H⁵}5个标度，得到每个属性词下每个产品对应5个标度的情感词.然后根据式(8)和式(9)得到各个产品关于各属性的随机评价信息，如表 3所示.

表 3 笔记本产品关于各属性评价标度的概率分布 Table 3 Probability distribution of notebooks about sentiment levels

根据式(10)和式(11)，得到两两产品关于属性C_j的随机占优关系矩阵R_j.最后，由式(12)~式(17)计算产品净流：Φ(X₁)=-0.069，Φ(X₂)=-0.021，Φ(X₃)=0.198,Φ(X₄)=-0.177,Φ(X₅)=0.068.依据净流得到产品的排序结果为X₃＞X₅＞X₂＞X₁＞X₄.此外，可得到各属性下两两产品之间的占优关系和排序情况，将本文方法与文献^[1]中将情感词赋值求和的方法进行对比，如表 4所示.

表 4 产品在各属性下的排序 Table 4 Ranking of products on each attribute

从表 4看，采用两种方法，产品X₃和X₄只在属性C₃下排序不同.产品X₃在H¹，H²，H³和H⁵标度下概率均比X₄大，在H⁴标度下概率比X₄小，说明消费者对产品X₃评价为非常不满意、不满意、一般等级的较多，虽然评价非常满意的也较多，但从整体看X₄更优，而文献^[1]中方法得到产品X₃优于X₄.因此，本文方法更贴合实际，具有可行性与实用性.

4 结语

本文提出基于在线评论的产品选择方法，通过对大量在线评论进行处理，提取在线评论中消费者关注的产品属性，通过对评论的情感分析，得到随机形式的评价信息，并依据随机占优准则和PROMETHEE II法得到了产品的排序.该方法的主要特点是利用了数量大且容易获取的在线评论进行产品选择，并且考虑了在线评论的效用，弥补了现有方法对在线评论信息处理过于粗糙的缺点.

参考文献

[1]	Kang D, Park Y. Review-based measurement of customer satisfaction in mobile service:sentiment analysis and VIKOR approach[J]. Expert Systems with Applications , 2014, 41 (4) : 1041–1050. DOI:10.1016/j.eswa.2013.07.101
[2]	Chen D N,Tseng C W,Lin C Y.Applying fuzzy AHP on product selection service in e-commerce [C]// Proceedings of 2011 International Joint Conference on Service Sciences (IJCSS).Taipei,2011:198-202.
[3]	Chen K, Kou G, Shang J, et al. Visualizing market structure through online product reviews:integrate topic modeling,TOPSIS,and multi-dimensional scaling approaches[J]. Electronic Commerce Research and Applications , 2014, 14 (1) : 58–74.
[4]	Huang Y F,Lin H.Web product ranking using opinion mining [C]// Proceedings of 2013 IEEE Symposium on Computational Intelligence and Data Mining.Singapore,2013:184-190.
[5]	Najmi E, Hashmi K, Malik Z, et al. CAPRA:a comprehensive approach to product ranking using customer reviews[J]. Computing , 2015, 97 (8) : 843–867. DOI:10.1007/s00607-015-0439-8
[6]	Zhang H P,Yu H K.HHMM-based Chinese lexical analyzer ICTCLAS [C]//2nd SIGHAN Workshop affiliated with 41th ACL.Sapporo,2003:184-187.
[7]	Scaffidi C,Bierhoff K,Chang E,et al.Red opal:product-feature scoring from reviews [C]// Proceedings of the 8th ACM Conference on Electronic Commerce.New York,2007:182-191.
[8]	唐晓波, 王洪艳. 微博产品评论挖掘模型研究[J]. 情报杂志 , 2013, 32 (2) : 107–111. ( Tang Xiao-bo, Wang Hong-yan. Research on microblogging product reviews mining model[J]. Journal of Intelligence , 2013, 32 (2) : 107–111. )
[9]	Che W X,Liu T.LTP:a Chinese language technology platform [C]// Proceedings of 2010 International Conference on Computational Linguistics.Beijing,2010:13-16.
[10]	Jiang Y P, Liang H M, Sun M H. A method for discrete stochastic MADM problems based on the ideal and nadir solutions[J]. Computers & Industrial Engineering , 2015, 87 (1) : 114–125.