群體智慧前沿:大眾評分落伍了,情感評分更有用

北京新浪網 (2021-06-15 19:00)
分享| 分享至新浪微博 分享至facebook 分享至PLURK 分享至twitter

原標題:群體智慧前沿:大眾評分落伍了,情感評分更有用

在線網路評價為人們提供了可以立即獲得群眾智慧的渠道。在亞馬遜和Yelp的所有在線評價中,積極正面的評價佔據了絕大部分,但是人們對這些項目呈現出來的行為性質卻存在著明顯的差異,那麼如何才能從這些積極在線評價的「海洋「中辨別出真正具有價值、成功的項目?目前流行的「星級評價」是否可以作為預測其項目成功的可靠依據?最近 Nature human behavior 一文中對於這些問題給出了答案。本文是對這篇論文的概述。

集智俱樂部已經啟動招募,多位專家牽頭,從計算科學與複雜科學等跨學科視角,探討社會、經濟等領域的問題。本文為讀書會成員撰稿。讀書會為期10-12周,每周四晚舉辦,詳情見文末。

熊宏晉 | 作者

Mass-scale emotionality reveals human behaviour and marketplace success

論文網址:

https://www.nature.com/articles/s41562-021-01098-5

1. 從在線平台的「海量」評價中提取用戶情感

目前隨著互聯網在線眾包平台的發展,商品或線下服務的售賣都會在其在線眾包平台中附著其一定的評價信息,而其中最為普遍的就是星級評價方式。這就可以供其平台的潛在消費者在選擇商品或服務時可以通過成本最低的方式,獲得最為直接的參考。但事實果真如此嗎?已有研究調查所證明,這些在線的評級系統存在一定的局限性:其在線評價絕大多數都是積極正面的[1]。例如,在亞馬遜網站上,平均星級評價約為4.2(滿分5分),其中遠超過一半的評論是5星級評價[2]。近一半的Yelp評論是5星評價[3],而近90%的Uber評價可能是5星[4]。

以上這種情況會導致個人經常面臨著在眾多星級相似的項目中進行選擇,特別是考慮到人們甚至不會考慮獲得低於3星級的選項。所以星級評價本身可能無法可靠地預測其項目成功與否,它也並不能作為對項目真實價值的有效性參考。高度集中的積極性評價會使其成為無效的信號, 那麼究竟如何才能從這些海量的積極性評價中獲取有效的信息。來自美國馬薩諸塞大學管理學院的教授 Matthew D. Rocklage 和其研究團隊把這種在大量積極評價中辨別成功的挑戰稱為「海量」評價積極性問題。他們首先證明了這種「海量」積極性問題存在的普遍性,並且提出具有情感性 (emotionality) 的評述性語言可以向個人提供更有意義的參考。他們將這一研究成果以《Mass-scale emotionality reveals human behaviour and marketplace success》為題目發表在了Nature Human Behaviour 上。

他們分別從電影票房收入、亞馬遜圖書出售量、超級碗廣告中新品牌的追隨者、Yelp上的餐廳預訂量四個大規模在線評價案例中研究了海量評價積極性的問題。通過對於四個大規模在線信息評價平台的研究,他們證明了80%到100%的在線星級評價都是積極的,並且發現在線星級評分對於預測一個項目的行為和其成功性是不可靠的,即越來越多的積極評價通常不能預示著其項目的成功。但是

評價文本的情緒化因素

卻可以用來預測一個項目的行為和其成功的可能性。這是因為情緒化語言為個人本身提供了一種跡象,表明發生了特別有影響的事情[5,6],因此它們可以作為一個特別明確的信號,讓個人了解自己的態度。這種強烈的信號反過來會導致態度在記憶中更加牢固[7],這是一個公認的預測態度的影響和持久性的因素。

下面將展示出他們所研究的四個案例:

2. 情緒因素預測電影票房

研究者們從Metacritic.com獲得了2005年到2018年這13年所有電影的在線評論,並使用為每部電影撰寫的前30條用戶評論來衡量電影的星級(0到10星)和在線評價文本的情緒化語言分析。他們發現一部電影的平均星級將會顯著地減少其電影的票房收入。而當所有的電影都被包括在內時——即使是那些最初有負面評價的電影——星級評價對票房收入也沒有顯著的預測作用。

3. 圖書銷量:文本情緒比評分更重要

在第二個研究案例中,研究者們預測了從1995年到2015年亞馬遜網站上所有書籍的成功性(20年的數據)。他們再次使用每本書的前30條評論來索引該書的星級(1-5星)、文本效價和文本中的情緒化因素。

其平均星級評價的回歸結果好壞參半。星級評價是預測購書數量的一個負面因素。當被評為負面的書籍也被包括在內時,正面的星級評價對購買量有顯著的預測作用。然而,這裏的總體證據好壞參半的,因為在1/3的圖書類型中,星級評價是不顯著的或為負面的預測因素。

在分析積極評價的書籍時,他們根據該書的平均星級和文本的情感性來預測該書的購買量。其發現平均星級是購買的一個負面預測因素,而文本的情緒化是一個重要的正面預測因素。除了這些影響之外,前30條評論中更多正面的情感性語言預示著更多的購買量,並且這一結論在百分之93的圖書類型中都有展現。

4. 廣告中新品牌追隨者:評價預測粉絲增長

在研究案例3中,研究者們考察了針對電視廣告的實時推文的情感性是否能預測成功和人類行為,即品牌的每日新粉絲數量的增加。對於2016年和2017年的超級碗,他們獲得了發生在該超級碗當天的所有實時推文,其中提到了超級碗期間播放的廣告。共有84家企業的94個廣告,關於這些廣告的推文總數為187206條。然後,他們使用評價詞典來量化推文中對每個商業的平均效價和情緒化的表達。

他們發現公司在超級碗之前積累的粉絲數量可以預測他們在超級碗之後積累的粉絲數量,但《今日美國》上對於公司的星級評分對粉絲沒有預測作用。

然後,他們增加了每個廣告的推文的文本情感性因素作為主要預測因素,並增加了文本的平均效價作為控制變數。其發現《今日美國》的星級評分和推文的效價對新粉絲的數量沒有預測作用。然而,關於商業推文的文本情感性語言的正面積極性程度越高, 公司在接下來的兩周內積累的Facebook粉絲就越多。

5. 餐廳預訂量:評分與情緒都有用

在研究案例4中,研究者們根據截至2017年伊利諾伊州芝加哥市存在的所有餐廳的前30條Yelp.com評論,研究了餐廳的成功和預定量問題。他們用這些評論來索引每家餐廳的平均星級 (1到5星)、文本效價 (valence) 和文本情感性。

6. 「海量」評價積極性問題的解決途徑

現如今,大規模在線評價信息中的「海量」評價積極性問題已經越來越普遍化,並且有時會伴隨著商家自己為了使得自己的商品或者服務得到更好的銷售從而進行刷好評的操作,這就會進一步造成大眾消費者從中識別有效信號的困難性。而基於情緒化的語言評價可以成為解決這個問題的正確途徑。這就需要呼籲相關第三方平台組織要更加關注個人態度的情感性。平台管理者可以考慮匯總評論者的語言,並提供一個「情感星級」,以向個人提供更有意義的評估參考。而具有有效預測性,並且可以取代星級評價的指標的探索性研究將會留給對此研究問題感興趣的研究人員。

參考文獻:

[1] Hu, N., Zhang, J. & Pavlou, P. A. Overcoming the J-shaped distribution of product reviews. Commun. ACM 52, 144–147 (2009).

[2] Woolf, M. Playing with 80 million Amazon product review ratings using Apache Spark. minimaxir http://minimaxir.com/2017/01/amazon-spark/ (2017).

[3] Yelp Factsheet (Yelp, 2017); https://www.yelp.com/factsheet

[4] Athey, S., Castillo, J. C. & Knoepfle, D. Service quality in the gig economy: empirical evidence about driving quality at Uber. White Paper. https://doi. org/10.2139/ssrn.3499781 (2019).

[5] Tooby, J. & Cosmides, L. The past explains the present. Ethol. Sociobiol. 11, 375–424 (1990).

[6] Ekman, P. E. & Davidson, R. J. The Nature of Emotion: Fundamental Questions (Oxford Univ. Press, 1994).

[7] Rocklage, M. D. & Fazio, R. H. Attitude accessibility as a function of emotionality. Pers. Soc. Psychol. Bull. 44, 508–520 (2018).

社會計算系列讀書會啟動招募

隨著大數據的持續積累和數字技術的迭代,社會計算(social computing)這一交叉領域正快速興起,社交網路分析、自然語言處理、機器學習、系統動力學、多主體建模等技術在這一領域碰撞融合,逐漸挖掘出信息時代社會行為的深層規律。

集智俱樂部以「社會計算」為主題,組織為期10-12周的讀書會,多位專家牽頭,研讀經典和前沿文獻,交流激發科研靈感。讀書會由王碩老師發起,專家顧問團包括孟小峰、羅家德、王曉、呂鵬、王靜遠、李勇等多位老師。

詳情以及報名方式見:

原標題:《群體智慧前沿:大眾評分落伍了,情感評分更有用》