云程若 作品

第129章 个性化推荐是天使还是恶魔

“啊,没事儿,姑娘你是不累了,要不咱们今天去你外婆家,咱不多待了,咱明天就回家,反正离的也不远,我和你爸平时也都常去。”李妈选择回避了李爸的问题,原因是李妈想到明明李珊是回家休假的,可现在看来非但本身的工作量没有减轻,现在他们老两口反而又给李珊增加了“工作量”,之前总是想让李珊和他们二老多聊聊天,他们也好多了解一下平时李珊的工作状态,于是是到处搜罗和法律相关的例子,就想着回家能和李珊聊聊天,但殊不知这种性质的“聊天”对于他们二老属于放松,因为大部分的聊天内容属实是左耳进右耳出了,但是对于李珊来说其实不亚于日常工作时接待一个不懂法律的当事人的答疑工作,可以说自从李珊回家后,不是坐在电脑桌前忙着自己的工作,就是被动地接待他们二老给他们二老答疑,这不是根本就没休息嘛!想到这里,李妈抢在李爸开口前,率先扔出一个不费脑筋的话题,就想着给李珊的大脑解解绑、松松劲。

 可是李珊刚刚才被李爸的提问激起了对未来规划的踌躇满志,现在听到李妈转移话题,当然是不干了,现在对于李珊来说什么待几天的问题和她的赚钱大业比起来都不重要,现在的李珊只想通过李爸李妈的口了解到更多普通人关于法律最想知道或者比较困惑的点,那正好可以成为李珊运营自媒体的素材库的来源,这不妥妥的是天赐的商机嘛!所以李珊赶紧调整话题的走向,主动问向正在开车的李爸,

 “爸,你刚才说你是刷视频看到的,你是通过抖音、快手还是微信里的小视频啊?”

 “啊,是微信里面的,就是平时回完微信然后顺便刷着看到的。”经过李妈的提点,李爸发现这两天确实李珊太累了,不是在电脑前忙工作,就是在忙着解答他们二人的问题,根本就没得到真正的休息啊,所以面对李珊的主动提问,李爸也没有顺势问出自己更多的疑问。

 但是李珊此时却想探究更多的关于自媒体运营的渠道、方式的信息,所以李珊又再次抛出了问题,问道:

 “爸,你平时有关注这类的账号吗?”

 “也没有特殊关注,可能就是这两天系统给我推这类视频的时候,我停留的时间长一些吧,关键不多看一会儿根本不知道视频说了个什么事儿。”

 李珊总结可能是系统根据用户偏好进行的自动推荐即个性化推荐,这个自动推荐功能好像是每个平台都有的,而且有的时候不同的平台之间好像还会进行用户偏好的互通,就像有的时候会出现当自己在微博上搜索一件物品时,随即打开淘宝,居然自动推荐的就是刚刚在微博上搜索到的物品,最开始李珊遇到的时候只是觉得可能是个巧合,但是次数多了,相信任谁也不能觉得这是巧合了,其实李珊那时候在想的是这种自动推荐有没有涉嫌侵犯消费者或用户的个人隐私,如果手机在任何App里搜索的信息都会上传到一个终端用于搜集用户偏好以进一步精准推荐达成成交率高的目的,那么是不是每个人在手机上进行的所有操作都会被背后一双看不见的眼睛注视着,那如何还有隐私可言啊?所以那个时候李珊根据这个大胆的设想,进行了一番研究。

 所谓的个性化推荐的运行机制是:构建个性化推荐的基础是处理“人”与“信息”之间的关系,这里的信息指的是“物品信息”(在电商平台就是“商品信息”,在短视频平台就是”视频信息“),而人指的是”人“的兴趣点,个性化推荐系统往往会通过用户注册时填写的个人信息、用户的历史浏览信息等对其进行推断。通过对用户的年龄、爱好等信息进行收集,再用算法进行分析所收集的数据,用户的兴趣体系逐渐被建立并完善,形成互联网上常说的用户画像。例如用户如果常常浏览日漫、漫展等物品,个性化推荐系统便可能捕捉到这一信息,给该用户标记上二次元等用户标签。同时,系统对物品信息也会做进一步的数据挖掘工作,从而形成物品画像。在构建好用户画像和物品画像之后,个性化推荐系统会利用所有收集到的数据去联系“人”和”物品“。个性化推荐主要分成召回和排序两部分,召回的主要作用就是尽可能地找到用户可能感兴趣的物品,其中最经典的算法便是协同过滤算法。

 协同过滤算法,顾名思义,协同过滤就是协同大家的反馈、评价和意见一起对海量的信息进行过滤,筛选出用户可能感兴趣的物品的过程。根据技术实现不同,协同过滤算法又可分为基于用户相似度的userCf、基于物品相似度的itemCf和基于隐向量表达的矩阵分解Cf。

 基于用户相似度的协同过滤userCf的主要思想是兴趣相似的人喜欢相似的物品,简单来说,就是推荐给你和你浏览行为相似的用户所喜欢的物品。

 基于物品相似度的协同过滤itemCf则是从用户有过行为的物品下手,推荐给你与你喜欢的物品相似的物品。例如你今天看了一部《蜡笔小新》,那么就推荐给你算法认为的与《蜡笔小新》比较相似的《哆啦A梦》等动漫。

 基于矩阵分解的协同过滤,矩阵分解Cf的思想更为直接。它把用户与商品的交互行为表示为一个矩阵,其中矩阵的行和列代表用户与商品,矩阵的元素代表用户对商品的交互行为(如点击与评分等)。矩阵分解Cf希望将交互矩阵近似地分解为一个用户隐含表示矩阵和一个商品隐含表示矩阵的乘积,从而填补交互矩阵中未知的元素。在协同过滤算法之后,还出现了很多更复杂的召回算法,例如基于内容的算法等,究其本质还是基于相似度的推荐。同时,为了更全面地覆盖用户的多样兴趣,推荐系统往往会采用多路召回的机制,使得生成的候选商品更加全面多样。

 在做完召回之后,个性化推荐系统已经获取了其认为用户可能感兴趣的物品,但一般召回阶段获取的物品数量会相当多,此时便需要多个排序模块对召回的物品进行多级排序,最后将精挑细选的少量物品展示给用户。

 排序算法的原理,排序阶段一般会整合现阶段能收集到的所有信息预测用户对物品发生某种行为(点击、加购、收藏等)的可能性。排序过程可以理解成将用户定位到某一类人群,再根据现有的信息给出这一类人群对于当前物品的偏好,当然个性化推荐系统对人群的分类会更细致,甚至是无法用语言来解释其对人群的分组,但本质上还是一回事。

 后处理,在经过上述过程之后,个性化推荐有时候还会经过后处理。一方面,为了保证用户看到的信息具有一定的多样性,平台往往会对排序结果进行打散,使得用户看到的推荐结果不会过度同质化。另外,针对平台运营的机制与策略,可能会对排序结果进行调整。比如,假设《蜡笔小新》和《哆啦A梦》与给二次元人群的相关度近似,但假如由于《哆啦A梦》的提供商出钱比较多,也可能会导致《哆啦A梦》的排序在《蜡笔小新》之前。

 这么看来,好像个性化推荐完全是为了便利人们生活需求所产生的新事物,但是个性化推荐真的只有好处没有坏处吗?恐怕不尽然。

 现在社会上对个性化推荐的批判主要有两点考量,一是批判个性化推荐会导致信息茧房,二是觉得个性化推荐侵犯了自己的隐私。

 一是信息茧房,信息茧房指人们关注的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像茧一般的“茧房”中的现象,简单来说就是我们每天只会关心同质化的内容。但对于个性化推荐系统本身来说也不希望用户陷于信息茧房,从平台角度出发挖掘出用户更多的兴趣点也就意味着更多的盈利点,比如一个二次元用户本来只会买二次元产品,如果个性化推荐系统推荐其热门运动类物品并使得该用户对该物品感兴趣,那么之后就可能将运动类的产品卖给该用户,可以在帮助用户拓展兴趣的同时提高营收。所以在个性化推荐系统中,探索用户更多元的兴趣也是一大重要领域。同时提出“信息茧房”概念的桑斯坦也在《信息乌托邦》中指出:“新的传播技术正在使事情变得更好而不是更糟”。

 二是隐私安全,隐私安全它是关于算法侵犯隐私的问题,推荐算法本身并不会侵犯个人隐私,隐私问题更多地来自平台对用户数据进行获取与分析的方式。如果用户在不同平台上的数据被整合和关联,隐私泄露的风险便会大大加剧。因此,针对平台可能利用为用户提供更好的个性化推荐为借口,对用户数据的隐私和安全进行侵犯的问题,学术界也在积极地研究如何在平台不集中存储用户行为数据的情况下对个性化推荐算法进行优化。