2-3 统计学原理在遗传学中的应用遗传学 | 39康复网

　　一、概率的概念

　　概率（probability）又称机率（chance），是指某事件未发生前人们对此事件出现的可能性进行的一种估计。概率的公式为：

              n_A
P(_A)  =   lim──
   n→∞     n

　　P(_A)：A事件发生的概率。n：群体中的个体数或测验次数。n_A：A事件在群体中出现的次数。

　　它和频率的概念不同，频率是指某一事件已发生的情况，如人口出生率的统计，升学率的统计，失业率的统计等等，这些事件都是已发生过的，数据都是经过真实调查得来的，不是估计的。但某事件以往发生的频率也可以作为对未来事件发生的可能性的估计。概率开始于赌博，所以开端的名声不好，三百多年前，一些赌徒问伽里略，一次挪三粒股子，计算总点数，为什么出现总和为10的情况要比总和为9的情况多。1654年一个赌徒问著名的数学家和哲学家巴斯加，把两粒股子投24次，出现两个6的情况会有多少。尽管概率论的“出身”不好，但现在对人类很有用，同样也是遗传学的一个重要理论基础。

　　概率有两个定则：（1）p+q =1，也就是说一件物若有两方面，那么它们发生的可能性总和等于1。如足球裁判掷硬币，要么是正，要么是反，可能性各为50%，总和为1。（2）0≤p≤1，当概率（P）=1时，称为必然事件，如“人终有一死”，“天总有晴日”等，p=0时，称为不可能事件，如“太阳西出”，“永生不死”等。当0<p<1时称可能事件，也是随机事件。有的事件可能性比较大，比如有人说“邻居的孩子很聪明，长大了能成为一名好学生”，这完全可能，如果有人说“这孩子长大了能当宰相”，这也是可能的，但概率很小很小。

　　二、概率规则：

　　1．相乘定律：

　　独立事件是指两个或两个以上互不影响的事件，比如掷硬币，你第一次掷的结果可能是正，也可能是反，第二次掷也是如此，但其结果丝毫不受第一次结果的影响，是互相独立的事件。独立事件A和B同时发生的概率等于它们分别出现的概率乘积。以公式表示如下：

　　P (A·B) = P (A) × P (B)

　　例如掷硬币，第一次出现正面的机会是1/2，第二次掷出现正面的机会也是1/2，现在

　　要问两次都出现正面的机会是多少？那么就可用相乘定律：

　　P (A·B) = P (A)×P (B) =（1/2）×（1/2）= 1/4

　　2．相加定律

　　相加定律适合于互斥事件（matually exclusive events）。互斥事件是指不可能同时发生的事件。如掷硬币结果不是正就是反，不可能正反同时出现；人们生孩子，除异常情况外，不是生男孩就是生女孩；掷股子掷的结果只会出现正六面体中的一面点数。这些都是互斥事件。出现互斥事件A或B的概率等于它们各自出现概率的和。公式如下：

　　P (A或B) = P (A) +P (B)

　　如某人要生孩子了，生男孩或女孩的概率

　　P(男或女) = P(男) + P (女) = 1/2+1/2 = 1

　　如掷股子，只掷一次是1点或6点的概率为

　　P (1或6) = P (1) + P (6) = 1/6 + 1/6 = 1/3

　　3．组合事件

　　如果两个或两个以上的事件，既有独立事件又有互斥事件，则称为组合事件（combining probability rule）。如掷两次硬币，问出现同样图案的机会是多少？这两个事件既是独立的，两次掷互不影响，又是互斥的，因同样的图案可能是正面，也可能是反面，只要求相同，这样就存在着同是正面或同是反面的问题。

　　P = 1/2 ×1/2 +1/2 ×1/2 = 1/2

　　也就是说得到同是正面或同是反面的机会为1/2。

　　4.条件概率（conditional probability）

　　男性和女性中都会出现色盲，如只要求女性中的色盲概率，即既是色盲又是女性的概率，即为有条件的概率。

　　条件概率的公式：

　　P (B|A) = P (AB)/ P(A)

表1-4 事件A、A′、B和B′频数表

	正常（A）	白化（A′）	合计
杂合	P（AB）=1/2	P（AB）=0	P（A）=1/2
纯合	P（AB′）=1/2	P（A′B′）=1/4	P（B′）=1/4
合计	P（A）=3/4	P（A′）=1/4	1

　　现以白化病为例，这是一种常染色体隐性遗传病。如果有两个白化基因携带者结婚，那么他们生育的子女表型正常但又携带有害基因的概率是多少？根据遗传学的知识，我们可以列出下列的表格，表明表型和基因型的列联关系。根据表格可以得到：

　　P (A) =3/4；P (B) =1/2；P (AB) =1/2

　　那么表型正常的杂合体的概率即为在表型正常这个事件的条件下是杂合体的概率为

　　P (A|B) = P (AB)/ P (A)=（1/2）/（3/4）= 2/3。

　　反之如要求杂合体中表型正常的概率为

　　P (A|B) = P (AB)/P (A)=（1/2）/（1/2）= 1。

　　三、概率的计算和应用

　　1．棋盘法（Punnett square）

　　棋盘法如图1-10所示，是一种最简单最直接计算杂交后代基因型和表型概率分布的方法。优点是准确可靠，缺点太烦琐，不适合多对基因的组合，如四对基因，配子类型有32种，将有1024种组合81种基因型，画起来太不方便，且容易出错，所以人们采用了比棋盘法要更为简便的分析法来推测。

　　2．分枝法（branching process）

　　如三对基因的杂交组合：AAbbCc×aaBbCc

　　我们可以将三对基因分别计算，再利用概率的原理推算三对基因杂交的结果：

　　3．利用概率来计算多对基因杂交中某种基因型或表型出现的概率：

　　若五对基因的杂交组合：

　　AABbccDDEe×AaBbCCddEe

　　求后代中基因型为AABBCcDdee和表现型为A B C De的概率。

　　我们可以把每个基因作为独立事件来求五对基因同时发生某事件的概率：

　　四、二项分布和二项展开法

　　我们研究一个小样品的一对质量性状时，如豌豆的紫花与白花，水稻的糯与非糯，人类的正常与白化，果蝇的长翅与残翅等等，各种情况的分布呈离散形的不连续分布，这和数量性状变异的连续分布是不同的。这种离散形分布有两种类型：

　　1．对称分布：

　　如果一对性状各自发生的概率p和q相同时，分布是对称的。如生男孩的概率p=1/2，生女孩的概率q也为1/2，p=q=1/2(p+q)²=p²+2pq+q²=1/4+1/2+1/4，分布是对称的。

　　若要研究三个子女的家庭，则为

　　(p+q)³=p³+3p²q+3pq²+q³=1/8+3/8+3/8+1/8

　　分布也是对称的。

　　若研究n个子女的家庭，则为(p+q)ⁿ。

　　2．不对称分布

　　若一对性状各自发生的概率p≠q，那么二项式的分布是不对称的。以隐性遗传病半乳糖血症为例，如果两个携带者婚配，只生两个子女，表型正常和患病的分布是：

　　计算单项概率

　　若我们研究的不是两个孩子的家庭，而是多个孩子的家庭，也就是说二项式的方次数高时，往往我们要求的不是其全部，而某一项的概率。

　　如白化病的携带者婚配，生育四个孩子的家庭中，白化与正常的分布情况每一单项的概率的计算可用二项分布概率密度函数公式：

　　是组合公式，比如四个孩子中只有一个白化儿，但可能是老大，也可能是老二、老三或老四，就存在一个组合的问题，所以要加组合公式，p为正常表型的概率，q为白化发生的概率，x为家庭中表型正常儿的数目，n为家庭中孩子总数，本例中为4，(n-x)则为家庭中患儿数，根据隐性遗传的规律我们可以得出下表：

　　各项前面的系数也可用杨辉三角（图1-11）来求出：

　　以第二排为1，一直向下排，如例子中为4个孩子，那么就第四排系数即为1，4，6，4，1。要是六个孩子则为1，6，15，20，15，6，1。

　　这一结果可以看出，白化的频率分布也是非对称的，也就是说，以上婚配家庭，在256家中生了四个表型正常孩子的可能有81家，四个孩子中一个患白化病的可能为108家，两个患白化病的可能有54家，四个孩子都患白化病的可能有一家。

　　这个公式在遗传病的调查中是很有用的。因为象四个孩子都正常的这一项，是无法确定的，只能根据公式对这种情况进行估计，来修正我们的理论比。也就是说对某种有遗传倾向的特征和疾病的调查时，主要是统计在父母表型正常，子女中有患者的各类家庭，正常儿和患儿之比是否符合孟德尔比(3∶1)，如不加以校正的话，将会把第一类父母为杂合体，但子女中未出现患儿的家庭漏掉，比如就以上述白化病为例，我们只能根据是否生育患儿来判断父母是否为携带者，因此在有患儿的家庭中

　　正常儿为108×3+54×2+12×1=444

　　白化儿为108×1+54×2+12×3=256

　　正常儿：白化儿=1.734：1≠3∶1。

　　这是因为漏掉统计了81×4=324个正常儿。在实际调查中这一部分数据是无法调查的，

　　因此可以用公式校正理论比，如上面的情况应是1.734∶1，而不是3∶1。

　　五．好适度的测验（goodness of fit）

　　1．实际数和理论数的符合程度

　　我们做实验时所得到的数值不太会正好符合理论值，常常会出现一

　　些偏差，比如在一口袋里放入等量的黑白围棋子，充分混匀后让你闭着眼睛抓出20粒，按理论说应当

　　是10粒黑子，10粒白子，但你有可能抓出来的不是10∶10，而产生各种偏差，这些偏差应当是在一个

　　允许范围内，那么什么是允许范围呢？什么样的偏差仍然说明原来放进的围棋子是1∶1呢？

　　我们可以利用二项分布概率密度公式计算出二项式展开的任何一项的值，比如让我们在袋子里抓围棋子，一次只抓2粒，那么黑：白 = 1∶1的机会应是0.500，若一次抓10粒，那么正好5粒黑，5粒白的机会是0.246，一次抓40粒的话，符合1∶1的机会只有0.125；一次抓80粒的话，符合1∶1的机会小到0.089，依次下去越来越小，这种估计没有考虑存在偏差，叫“点估计”。点估计存在一些缺点：（1）单项的概率很小。比如让我一次抓20粒围棋子，不太会正好抓出是10粒白的，10粒黑的，若抓出的是14粒白的，六粒黑的，按公式计算其得到的概率为0.037，数字很小，凭借这个数据我们难以判断这个结果是否符合1∶1。（2）样本越大，单项概率越小。在统计上样本越大结果应当越准确，但点估计却越小，似乎是矛盾的，所以要采用考虑偏差存在的“段估计”。此是计算从低到高的一个范围，而不是一项，即计算实得比数的概率和比实得比数偏差更大的比数概率的总和，如图1-12所示，如14∶6的点估计为0.037，段估计为P=0.116，也就是100次实验中可能有11.6次的机会发生这样的情况，是完全可能的，这一结果也是符合1：1理论值的。

　　1．统计的标准

　　实验值和理论值的符合状况用什么标准来评价呢？统计学家规定了一个显著性标准：

　　P>0.05 结果与理论数无显著差异，实得值符合理论值。或实验组与对照组无差异。

　　P<0.05 结果与理论数有显著差异，实得值不符合理论值。或实验组与对照组有差异。

　　P<0.01 结果与理论数有极显著差异，实得值非常不符合理论值。或实验组与对照组有极差异。

　　2．X²测验

　　X²（Chi square method）也是一种好适度测验的方法，可以用来检验我们的实验结果和理论值有无差异，其公式为：X²=Σ（d²/e）

　　e: 为预期值，即理论值；

　　d：预期值和观察值或实验值之差。例如我们做了以下两组豌豆测交：查卡方表，一对性状，自由度N=2-1，X²=10，P<0.01有极显著差异；X²=2，0.05<P<0.30无显著差异，符合理论比。

表1-4 X²值的计算[紫花（Rr）× 白花（rr）]

	40		200
	紫	白	紫	白
观察值	30	10	110	90
预期值	20	20	100	100
差数	10	10	10	10
d²	100	100	100	100
d²/e	5	5	1	1
X²=∑（d²/e）	10		2

　　以上实验样本不同，虽然差数d相同，但结果明显不同，大样本的结果符合测交的理论值，小样本的结果却和理论值有极显著差异。因此在使用卡方测验时应注意以下几点：

　　（1）X²测验应用于大样本，当遇到小样本时，可用二项分布的方法。

　　（2）预期数不得小于5；

　　（3）所取数值不用百分比表示。

表2-7 X²的数值表

df	0.990	0.975	0.950	0.900	0.750	0.500	0.250	0.100	0.050	0.025	0.010	0.005
1	0.00016	0.00098	0.0039	0.018	0.102	0.455	1.32	2.71	3.84	5.02	6.63	7.88
2	0.0201	0.0506	0.103	0.211	0.575	1.39	2.77	4.61	5.99	7.38	9.21	10.6
3	0.115	0.216	0.352	0.854	1021	2.37	4.11	6.25	7.81	9.35	11.3	12.8
4	0.297	0.484	0.711	1.06	1.92	3.36	5.39	7.78	9.49	11.1	13.3	14.9
5	0.554	0.831	1.15	1.61	2.67	4.35	6.63	9.24	11.1	12.9	15.1	16.7
6	0.872	1.24	1.64	2.20	3.45	5.35	7.85	10.6	12.6	14.4	16.8	18.5
7	1.24	1.69	2.71	2.83	4.25	6.35	9.04	12.0	14.1	16.0	18.5	20.3
8	1.68	2.18	2.73	3.49	5.07	7.34	10.2	13.4	15.5	17.5	20.1	22.0
9	2.09	2.70	3.33	4.17	5.90	8.34	11.4	14.7	16.9	19.0	21.7	23.6
10	2.56	3.25	3.94	4.87	6.74	9.34	12.5	16.0	18.3	20.5	23.2	25.2

　　注：df一列表示自由度；第一行表示X²值。如自由度N=1, X²=0.750时P值为0.102。

作者： 2007-9-25

医学百科App—中西医基础知识学习工具