研究需要材料、工具方法。
先说材料吧,材料当然就是DNA源数据,在搜索引擎搜索Reich lab可以进入David Reich的实验室网站:

点击dataset, 可以看到有各个年份已发表论文的DNA数据,包括古代人群和现代人群,这些都是可以免费下载的。

也许有人还不知道这个David Reich是何方神圣,他是付巧妹和王传超读博期间的老师,全世界古DNA研究的先驱人物,哈佛医学院教授。
同样是在David Reich实验室的网站,点击software,有一系列的软件工具可供免费下载,包括你在论文中经常看到的那些算法工具,比如ADMIXTURE,PCA(页面中的EIGENSOFT,虽说PCA是一个非常常见的机器学习算法,很多软件都有这个功能,但是适合用于生物信息领域的还是这个eigensoft),还有F3,F4,D等统计算法的工具等。
不过需要提醒:
这些软件都是没有UI界面的!!!!!需要你自己在linux的命令行终端中键入命令来运行!!
这些软件对于使用者比较不友好,安装就很麻烦,需要先安装配置很多其他运算库才能运行软件!!!
最好对英文比较上手,因为其说明文档都是英文的,并且你上网搜索帮助往往都只有英文网页才有你需要的信息!!

接下来来讲讲像f3, f4, D这类算法的结果怎么看吧?
f3有两种功能:检测共享基因漂变的数量, 检测某个族群是否能看做另外两个族群的混血
检测共享基因漂变的数量: f3(A,B;X),检测A与B在与X分离之后,AB双方共享漂变的数量,数值越高说明双方共享漂变越多;比如f3(Han, Ami ; Mbuti),就是检测在与非洲Mbuti人分离后,汉族和阿美族共享漂变的数量,由于这里选择了mbuti作为外围族群(即X),算法在对比汉族和阿美族共享漂变时,会先排除掉汉族和阿美族中那些与非洲Mbuti人共享的漂变,再对比剩下中两者共享的部分。
f3数值高,说明:两者分化晚,或者是两者之间有混血。
反过来用f3检测某个族群是否能看做另外两个族群的混血:
如果 f3(A,B;X)为负数,并且其输出报告中的Z值足够大,则X可以被视为AB两个族群的混血。比如你要是运行f3(Han, French; Uyghur),就会得到一个负数,并且其Z值也会很大。
如果D(w,x,y,z)为负数,那么相对于族群z,x则更接近于族群y,反之为正数,则相对于族群y,x与z更接近。
如果D(w,x1,y,z)为正数,D(w,x2,y,z)也是正数,且D(w,x1,y,z)>D(w,x2,y,z),则说明x1比x2要更接近于z。
反过来负数也是如此。