怎样不在朋友圈浪费时间数学模型给你答案

2019-09-11 22:26:25 阅读：7301 作者：责任编辑。陈微竹0371

编者按：本文来自微信大众号“集智沙龙”（ID：swarma_org），作者郭瑞东，审校刘培源，修改李倩雨，36氪经授权发布。

导语：信息爆破时代，注意力是个人最稀缺的资源。从获取信息的视点，多久刷一次朋友圈比较合理呢？问题很杂乱，近期一项研讨中，研讨者把交际媒体的运用问题，简化成了一个数学最优化问题，并给出了怎么“高效”刷朋友圈的一个主张：每次刷朋友圈，都请把新信息看完。

看过标题，点进本文，你预期从这篇文章中学到什么了？假如你要的是像42这样明晰的答复，那你肯定会绝望的。不如你改动等待，看看为何数学模型无法对这个问题给出一个明晰的答复。只要了解不或许性，才能对模型能处理的问题有更明晰的知道。

为什么你投入越来越多时刻在交际媒体上？

从BBS到朋友圈，从头条到知乎，这些渠道供给信息流的一起，也依托信息流中的广告盈余。每个交际媒体网站都等待着你在上面花更多时刻，只要这样，才会有更多时机点击广告。

关于一般的交际媒体用户来说，刷朋友圈的距离越久，堆集的新音讯越多，若是你还没来得及看完一切音讯，部分音讯就被你永久错过了，这使得交际媒体对咱们的招引力越来越强。Sean Parker 是交际网站 Napster 的创始人，还曾经是 Facebook公司的联合创始人兼首任总裁，他点评 Facebook 的设计便是为了运用人类软弱的那一面。

交际网络是否绑架了咱们心智？本年4月的Nature Communication的一篇文章指出，新的音讯不断竞争着有限的注意力，在团体层面，热点论题留存距离正在变短。集智沙龙曾做专文报导，介绍这项研讨。

而本年8月，在arixv上8月新出的论文How often should I access my online social networks? （我应该多久上一次在线交际媒体），尝试用数学建模的办法，来答复这个问题。本文将要点介绍这篇论文的中心工作和待改善的问题，并展望未来研讨的或许。

论文标题：

How often should I access my online social networks?

论文地址：

https://arxiv.org/abs/1908.04811

模型假定：交际媒体的5条根本规矩

怎么答复“多久刷一次朋友圈”的问题，取决于咱们怎样假定问题所在的环境，更取决于咱们对交际媒体的用户进行怎样的简化。这两个问题是整篇文章办法论的柱石，之后的研讨若想有所突破，也需求从这个根底动身。

实在国际的交际媒体纷繁杂乱，关于交际媒体渠道，研讨者做出了如下的简化假定：

新内容的发作距离契合泊松散布（泊松散布描绘单位时刻内随机事情发作的次数的概率散布）
交际媒体渠道会尽或许多地展现新发作的内容
在短少新内容时，会展现旧的内容

关于交际媒体上的用户，研讨者也做出了假定：

用户每次改写时，最多只会看固定的K条新鲜事

每条新鲜事对用户的价值相同

需求阐明的是，研讨者关于交际媒体的假定是合理的，但关于用户的假定，则首要是为了简化模型，与实在状况有必定差异。

“刷朋友圈”模型：用户刷朋友圈收益，取决于新鲜事的多少

站在用户的立场上，应该多久刷一次朋友圈这个问题，是一个最优化问题——刷朋友圈的时刻距离多久，收益最大。

依据对用户的两条假定，能够导出关于用户来说，每次刷朋友圈的收益，当展现的新鲜事的数A小于K的时分是A，否则是K。

之后依据泊松散布，来判别在前次刷朋友之后的τ之后，发作的新鲜事条数是A的概率：

有了概率和收益，就能够求希望。研讨者对这个希望在泊松散布的各种或许状况下取全概率散布，就得出了本文提出的中心概念VOA（Value of access，即用户每次的“刷朋友圈收益”），即每次刷朋友圈取得的价值。

模型的树立：特例、极限与参数敏感度

特别状况是对实践的进一步简化。最简略的状况是，假定总是在固定的距离刷，这样多久刷一次就彻底取决于新鲜事更新的频率。更实在的假定是刷朋友圈的距离时刻呈指数散布，在这种状况下，从刷朋友圈中取得的收益如下式所示：

这儿的µ是指数散布的底数，代表每次刷朋友圈的距离均匀为1/u。由所以指数散布，因此在散布上会呈现长尾。即空闲时刷朋友圈的时刻隔短，繁忙时刷朋友圈的时刻距离会长一些，越是长时刻不刷的状况，呈现的概率也越低，这契合指数散布。

而极点状况意味着用户对交际媒体运用到了极致。首要当用户单次最大拜访信息数K为无量时，也便是用户会刷完一切的新鲜事，这时均匀来看，每个用户每次刷到的新鲜事数量便是λ/µ，其间λ是新鲜事发作对应的泊松散布的希望，1/µ是每次刷的均匀距离。

当新信息的发作速率趋向于无量大的时分，这时用户刷朋友圈的收益，就取决于他的单次最大拜访信息数K，即每次刷朋友圈时最多看几条新音讯。而当用户刷朋友圈的均匀距离趋近于无量大的时分，这时的收益也由K决议。

总结一下这个模型的要害参数，用户的单次最大拜访信息数K，新信息发作的希望除以用户改写的概率λ/µ，之后称为p，其意义是用户每次预期看到多少条新鲜事。

研讨者还重视了模型对这两个参数的敏感性，也便是哪个参数的改变，对咱们关怀的方针VOA（刷朋友圈收益）的影响更大。下图的纵轴是数值模仿中VOA的改变，左面不同的色彩代表不同的p值，右边代表的是不同的K值。

图例：不同参数下的刷朋友圈收益改变曲线

模型验证

之后研讨者用巴西大选期间30个媒体账号的Facebook信息流数据，来验证上述模型的假定是建立的。

文中列出的三组验证，第一组是拿信息流去在模仿环境下，用FIFO（最新进入的信息最早推送）来进行模仿，之后是拿网页的插件获取没有登录时下facebook的信息推送，与之比照的是通过插件，获取个人用户登录帐号后，通过facebook的过滤算法推送的成果，以阐明Facebook的信息流过滤对用户拜访价值的影响。

图例：用实在数据验证模型

左图是这段时刻内总共新产出的内容，横轴是以天核算的时刻轴，纵轴是总的推送数。能够看出这儿总的推送数加起来也就1000左右，实在算不上大数据研讨。

右图比较模型理论核算的VOA（用户每次刷朋友圈收益）的希望值，与通过Bot仿真的到实在的VOA。阐明通过参数调优模型，其核算出的希望能够反映实在状况。

批评性地来看，该研讨较好地构建了数学模型，但缺陷是模型验证有些粗糙。首要，验证数据很少，只来自一种交际媒体，并且会集在一个很特别的时刻段里，得出的定论也有些牵强。这篇文章需求用更很多的数据，且不是在大选这样特别时刻段的数据来做进一步的验证，更高一些的要求是要去比较不同渠道，例如 facebook 和 twitter 的数据，以验证模型能够反映各类型的交际网络。

文章指出，用来从交际媒体获取数据的插件分为两种，高频率的每十分钟调取一次，正常的每一小时调取一次。正是这个试验设计上的细微不同，导致了下面的不同。

图例：不同采样频率下的刷朋友圈价值改变曲线

这儿左右两图别离比较的是高频采样的和低频采样的Bot，横轴是K的值（用户单次最大拜访信息数），纵轴是实践的VOA（用户刷朋友圈价值），左右两图的距离不仅是数量上的，并且定论也不一致了。左图是赤色的和绿色的最接近，右图是赤色和蓝色的最接近，也便是说这篇文章的定论是和特定的研讨办法强绑定的，这是该研讨的局限性。