棒球吧 关注:40,402贴子:822,958

【好文分享】用统计学探究在各个棒次中OBP和SLG的价值

只看楼主收藏回复



IP属地:湖南1楼2011-10-16 10:27回复
    我们经常出现的一个问题是“上垒率(OBP)和长打率(SLG)的价值谁相对更加重要?” OBP中50%以上的话,SLG的重要吗?或60%?还是别的什么?所谓的OPS只是一个给他们以同等的重视的统计。但是,也许份量不应该是平等的。例如,按照2001-03年每场比赛来运算,这里是团队的回归方程:
    R/G = 17.11*OBP + 11.13*SLG - 5.66


    IP属地:湖南3楼2011-10-16 10:29
    回复
      这使得OBP中比SLG重要性超过了53%,一个相当典型的结果。但OBP有可能对于一个确定的位置更加重要,就像开路先锋一样,而SLG呢,可能对于清垒者更加重要。检查到这一点,我求出了关于每场比赛得分是因变量(DV),而每个打击棒次的OBP和SLG独立变量(IVs)的回归。 OBP1指开路先锋的OBP,SLG3的意思是1989-2002年赛季的第三位打者SLG等等,我用数据来源于Retrosheet。 Retrosheet显示每个队打击顺序的统计信息。表1中b.coeff表示标准化回归系数(Beta值),std. error表示标准误差,t表示t分布,p表示拒绝域的面积或概率,Variable表示变量,Constant表示常数,其余表都相同,以下表1是“IVs”的系数值。


      IP属地:湖南4楼2011-10-16 10:31
      回复

        表1


        IP属地:湖南5楼2011-10-16 10:37
        回复

          这里有相当多的方差。开路先锋的OBP每一点都价值约每场比赛0.003分,(一个开路先锋的OBP有0.021的增加意味着每场比赛要多拿约0.063分,大约每个赛季多拿10分,通常意味着1胜)。而对于第八棒,OBP明显就不那么有价值了,对于开路先锋,OBP要比SLG重要三倍。对于清垒者,他们几乎是相同的。因此,这一分析表明,OBP和SLG的相对值可能会有所不同,取决于打击顺序的位置。
          在我的分析中可能会有多重共线性,意味着可能会因为各个IVs高度相关而导致系数的估计是不可靠的。我讨论我所做的检测多重共线性就在下面。但如果这是一个问题,我尝试了一个不同的,但能使各个系统能减少相关性的类似的模式。
          每个打击顺序有3个变量:保送率,打击率和长打率。保送,打击和长打分母是打席(PAs)。OBP和SLG有一个很小的区别OBP和SLG,OBP是以打席作为分母,而SLG是以打数作为分母。此外,使用长打有点像独立电源。 而SLG并不总是拥有良好的功率测量功能,因为一个人谁打了一支singles就能驱动他的SLG。独立电源是SLG-AVG,和长打并通过打数来划分的。当然,在这里,我使用的是打席。 H1是开路先锋的击中率,W1是开路先锋的保送率,XB1是开路先锋长打率等等,这里是系数估计见表2:


          IP属地:湖南6楼2011-10-16 10:38
          回复



            IP属地:湖南7楼2011-10-16 10:39
            回复
              如表2,同样,也有一些比较大的差异。一个开路先锋被保送对自己球队价值是一个第六棒打者的两倍。而在长打方面清垒者有最高的价值。
              我没有尝试一些其他的变量。我曾在每场比赛的盗垒成功和盗垒失败的第一个模型,与OBP和SLG一样。事情还是基本上和想象中的一样,但在很多情况下,一个被抓盗垒的价值是积极的,在一个棒次中,一个盗垒的价值竟然是消极的。为什么一些打击棒次盗垒是负值,被抓盗垒反而还是正值,目前尚不清楚。我试图在AL分析一个回归,因为他们有DH——一个第九棒的普通球员。结果似乎还是相同的。
              现在讨论多重共线性。在分析OBP和SLG的第一种模式,大部分“IVs”之间的相关性在0.5以下。但有些更高,他们所有的OBP和SLG与打击顺序一一对应。OBP1和SLG1之间的相关性为0.596。这些相关基本上介于0.596到0.739,除了OBP9和SLG9之外,这都是非常高的0.897,
              但在第二个模型中,只有一个IVs的相关性超过0.5——H9和XB9是0.648。其他的绝大多数在0.2以下。


              IP属地:湖南8楼2011-10-16 10:41
              回复

                表3


                IP属地:湖南10楼2011-10-16 10:52
                回复
                  你可以去评判有DH和没有DH的区别(表4)

                  表4


                  IP属地:湖南11楼2011-10-16 10:53
                  回复
                    确实,有的棒次盗垒反而是不利因素(表6)



                    IP属地:湖南13楼2011-10-16 10:58
                    回复
                      To be continue,有事去了


                      IP属地:湖南15楼2011-10-16 11:01
                      回复
                        虽然不太懂,但好像很厉害的样子


                        16楼2011-10-16 11:03
                        回复
                          我胡汉三又回来了,继续……


                          IP属地:湖南17楼2011-10-16 14:44
                          回复
                            现在各个IVs可能呈现线性关系。我除了这一次不做任何计算,如果我做了,我就会革新这个故事。我运算了一个回归与一些不同的变量来尽量避免或减轻这一问题。每个打击顺序仍然是3个变量:OBP,SLG和XB。OBP,SLG,和XB,分母是打席。这与OBP以打席作分母,SLG以打数作为分母不同(表7),仍然是H1是开路先锋的击中率,W1是开路先锋的保送率,XB1是开路先锋长打率等等。

                            表7
                            


                            IP属地:湖南18楼2011-10-16 15:36
                            回复
                              现在是在DH制中把盗垒和反盗垒的因素加进去(表8)



                              IP属地:湖南19楼2011-10-16 15:37
                              回复