幸存者吧 关注:34,184贴子:922,726

【全季剧透】数字中的SURVIVOR(一)

只看楼主收藏回复

一楼百度


IP属地:江苏1楼2013-09-04 11:31回复
    众所周知,现在是一个大数据的时代,各大公司都在做数据挖掘,数据中有黄金,数据中透露着信息,通过数据挖掘可以揭示那些不为人知的事物之间的联系。我举个例子,大家就能体会到数据挖掘的奇妙了。很多人都有微博,微博上有淘宝的广告,你会惊讶的发现微博上显示的广告往往就是你在淘宝上搜索过的宝贝,你以为这是巧合,其实不然,这其实就是数据挖掘的作用,你所看到的广告是为你定制的广告。
    好了,讲了这么多废话,跟SURVIVOR有什么关系呢?聪明的人一定马上就想到了楼主想对SUR做一次数据挖掘了,bingo,但关于SUR的数据简直是海量,从参加选手的各项信息,到各个季度各场比赛的胜负,到各场tc的投票数,到各位winner的得票数,以及各式各样的文本信息,如何找到切入点进行分析也是关键。所以这个帖子是我对SUR做数据挖掘的第一次尝试,希望各位吧友提出宝贵意见。下面正式进入正题。


    IP属地:江苏2楼2013-09-04 11:33
    回复
      2025-08-26 15:34:56
      广告
      不感兴趣
      开通SVIP免广告
      中国人做任何事都讲究开门红,好的开端往往就是成功的绝佳基础。
      既而我就想到了,部落的首场胜利是否会影响最终的冠军归属?
      是否部落获得首场胜利后出冠军的概率更大?
      前三个ep的比赛结果是如何影响夺冠的概率?
      是否sur比赛中存在开门红效应?
      这就需要数据来证明,于是我统计了每一个季度的前三ep的immunity比赛的胜负情况。特殊情况包括s12,s13等多于两部落,或者有过换组的季度等,处理时我只看冠军所在部落前3个ep的比赛结果,所以只要不换组,只要冠军所在部落没去tc都算他们赢了。
      这里我要感谢@missdiao 的大力帮助,他提供了很多数据上的援助,在此特别感谢。


      IP属地:江苏3楼2013-09-04 11:36
      收起回复
        原始数据预览图



        IP属地:江苏通过百度相册上传4楼2013-09-04 11:38
        回复
          首先我统计了首场获胜出冠军的次数为13次,显然首场获胜未出冠军次数也为13次,我们惊奇的发现部落首场ic获胜最后出不出冠军的概率相等,都为50%。那么我们是否能说明部落首场比赛胜利与否与出不出冠军没有关系呢?那就错了,其实我们什么都说明不了,因为样本太少,统计上大样本还需要大于30呢,何况这才26个数据。我们只能说明一点,也就是过去发生的比赛情况来看,部落首场比赛获胜出冠军和首场比赛获胜未出冠军的概率都为50%。虽然我们没法证明部落首场比赛胜负与最后出不出冠军之间的关系,但是我们心里会对这个概率产生偏好,就像我们买彩票,明知道在哪个投注点买都一样,但我们会偏好去出过大奖的投注点买彩票一样。
          接着我又统计了部落连赢两场ic最后出冠军的次数为8次,而部落连赢两场ic未出冠军的次数为9次,我们发现居然部落连胜最后出冠军的概率反而下降到47.1%。
          为了验证开门红效应,我又统计了部落连赢三场ic最后出冠军的概率。发现部落连赢三场ic一共发生了7次,其中最后出冠军的季度仅两次(s7和s10),未出冠军则有5次(s4,s8,s14,s19,s25)。我们发现部落连赢三场ic结果出冠军的概率反而降至28.6%。似乎在survivor中开门红效应并不存在。


          IP属地:江苏5楼2013-09-04 11:39
          回复
            但是真的survivor中想要扩大最后部落出冠军的概率,前期必须要故意输比赛么?为了验证观点我又做了统计,前三场ic获胜超过两场(含两场)的部落出冠军次数为16次,而未出冠军次数为10次。我们又发现如果前三场获胜超过两场,部落出冠军的概率可以达到61.5%。
            如何解释开门红逆效应和61.5%概率之间的矛盾呢?其中一个观点就是CBS干爹的存在,为了收视率,当某个部落呈现一边倒情势后,CBS往往会干预比赛,进行换人,偷人,复活等twist影响比赛。而两边互有胜负时,比赛非常激烈,干爹也就会干预的少些,这时获胜多的部落最后出冠军的概率就更大。
            当然这些分析都是建立在数据显示的结果上,由于数据量太小,以上分析都不会显著,这只是分析的一个偏好概率。Survivor是一个多因素的比赛,每季度千差万别,有各种影响比赛的元素,很难找到绝对影响比赛结果的因素,我做的这个开门红效应检验也不过是一次尝试。


            IP属地:江苏6楼2013-09-04 11:40
            回复
              最后,总结一下。按我做的统计,survivor中存在开门红逆效应,前期部落不宜表现过于强势,连赢三场只会让部落出冠军概率直线下降,应该有策略的放弃其中一场,这样出冠军概率就能超过60%。以上观点纯属个人意见,请大家不要认真。


              IP属地:江苏7楼2013-09-04 11:41
              收起回复
                好长!


                来自iPhone客户端9楼2013-09-04 12:23
                回复
                  2025-08-26 15:28:56
                  广告
                  不感兴趣
                  开通SVIP免广告
                  。。。额 有策略的放弃一场.


                  IP属地:北京来自Android客户端10楼2013-09-04 12:28
                  收起回复
                    我来顶!!!!!凑个十五字呀十五字!!!啦啦啦啦啦


                    IP属地:云南来自Android客户端11楼2013-09-04 12:44
                    回复
                      楼主不愧是学统计学的。。。


                      IP属地:北京12楼2013-09-04 13:10
                      收起回复
                        楼主还有很多想法,比如说非常想要全季度所有参赛选手的生日,职业,种族,地域等等数据。由此可以分析很多因素,比如说哪些职业跟容易进jury以至于获得冠军,哪些星座更易获得冠军,年龄、种族、地域等因素是否与最终夺冠呈显著影响等等。
                        如果说最后夺冠的样本较小,那么是否可以将是否进入jury作为评判玩游戏好坏的标准,设置为0、1变量,此为因变量。寻找对因变量显著的自变量就是我的目的。
                        做数据分析并不难,统计最难的其实是寻找数据,这正是阻挠我分析的最关键障碍,所以也请热心吧友能提供一些数据或者提供一些网站,支持这个系列的继续探索。


                        IP属地:江苏13楼2013-09-04 13:36
                        收起回复
                          天了噜....楼主后面要开用SPSS了么.....


                          IP属地:辽宁14楼2013-09-04 16:50
                          收起回复
                            你可以从个人赛赢得次数与冠军关系,比如是否需要赢得几场个人赛来影响冠军系数。jury中男女投票差异,比如jury中更喜欢投同性还是异性


                            IP属地:浙江来自Android客户端15楼2013-09-04 17:41
                            收起回复