樣本量計算公式(樣本量計算公式最簡單)
在討論參數之前,我們首先需要了解什么是參數?
參數,也叫參變量,是一個變量。我們在研究當前問題的時候,關心某幾個變量的變化以及它們之間的相互關系,其中有一個或一些叫自變量,另一個或另一些叫因變量。如果我們引入一個或一些另外的變量來描述自變量與因變量的變化,引入的變量本來并不是當前問題必須研究的變量,我們把這樣的變量叫做參變量或參數。英文名:Parameters。
我們之前講過,統計學研究的一大主題就是 “用樣本來科學地推斷整體”。通常來講呢,在大部分情況下,“整體” 總是由于種種原因無法做到普查,于是我們只能 “無奈地” 選擇觀察樣本,也就是 “抽樣”。完成抽樣后,我們就有了一份 “樣本”。
注意,這里的樣本一是要保證隨機性,一是要能力上可以處理。隨機性需要花時間解釋,這里先按下不表。可以籠統地認為是 “無任何特定目的” 地抽取樣本,有目的就代表有人為因素,結果就可能被這個特定目的帶到坑里了。能力上可以處理就應該比較容易理解,不能處理的樣本沒有什么現實意義。
好,當有了一份(或者多份,看玩家有沒有 *** 648,錢多就能多份,錢少只能一份,呵呵[奸笑])“能夠處理” 且 “隨機抽樣” 的樣本。那么,就可以用統計的方式來計算樣本統計量了。
什么是統計量?針對這個樣本,平均數是統計量,中位數是統計量,方差是統計量。有點明白了么?現實中,我們可以拿到的真實數據,往往就是樣本的,然后計算這個樣本統計量。為啥叫統計量?當然因為 “能夠處理” 的樣本才能被統計,而 “無法直接處理” 的整體,我們根本抓不到、摸不著啊~[淚奔]
所以,我們把整體對應樣本的統計量叫做參數。簡單點講,樣本的平均數是一個統計量;此樣本對應的整體的平均數,則是一個參數。參數的集合就是這個整體的統計特征集,或者可以認為我們用參數集合描述了這個整體。就好像相親,我們用 [身高,年齡,體重,性別,年收入,家里有沒有礦?來描述了某個潛在對象。
樣本的平均數是不是就等于整體的平均數呢?當然不會絕對的等于。但是,我們認為這個統計量“ 在一定的條件下” 會 “基本上” 等于整體的參數,也就是樣本的平均數可以被認為是整體的平均數。這樣衛健委調查某幾所小學的男孩平均身高和標準差,就可以推斷全市,甚至全國的同等年齡段的男孩的平均身高和標準差了。
這里要多提一個概念,自由度。我們上次講的方差公式還記得不?創業者需要知道的統計學之三 · 方差和標準差
可以看到分母是n,但這個公式是計算整體的方差的(有時候,整體不大,也能處理,我們就直接算了,不需要抽樣在統計推斷了)。樣本方差的計算稍有不同,分母變成了n-1。
最大的變化就是分母不再是除以n而是n-1,為什么?這里就有自由度的概念。統計學中,幾乎所有的方法和指標都會涉及自由度的概念,因為它和例數有關。自由度的字面概念就是:可以自由取值的數值的個數(df)。舉個簡單的例子,a+b+c=10。這個公式中,如果a和b都自由取值,那么一旦a和b確定了,c就不能再自由了,c=10-a-b。所以,c是“不自由”的。這個式子的自由度,不是3(雖然有三個自變量),而是2。
我們要站在巨人的肩膀上么!前代的統計學家已經證明,如果樣本的統計量要對整體做 “無偏估計”,那么自由度必須減1。
順便提一句 t 檢驗中的理論基礎 t 分布就是一組按自由度排列的類鐘形曲線,當自由度超過“30” 的時候就可以認為近似正態分布。30這個數字是不是對很多人很熟悉啊?哈哈哈。今天到此。下次繼續參數估計。至于30,這個和中心極限有關,慢慢來~
關注采客,下一次我們來討論參數估計。如需更多支持服務,敬請留言~
采客,身邊的創業智庫!
發布于:2022-11-23,除非注明,否則均為原創文章,轉載請注明出處。
