模型细节

论文的最新版本可以在arxiv上找到:

eDNAPlus:基于dna的生物多样性监测的统一建模框架

的输入读取对于每个物种,即计数数据表明每个物种的DNA已被读取的次数在给定的PCR给定的样品。

这是一个层次模型,它考虑了元条形码调查中三个层次的变化、误差和噪声

  • 生物可用性:每个调查地点可供收集的每种物种的生物量
  • 生物质收集:在每个调查地点的每个物理样本中收集到的每个物种的生物量
  • 生物量分析:每次PCR运行时每个物种和物理样品检测到的生物量。

数据只能从生物量分析阶段获得,即读数,而其他两个阶段是不可观察的(潜在的)。上述每个阶段都使用回归型模型进行建模,其中包括固定效应和随机效应。

生物可用性阶段,模型说明站点之间的差异由于它们可观察到的差异,例如景观特征和由于物种相关性,例如物种倾向于共同发生(固定效应)。它也解释了随机性工地之间的噪音,即。因为相同的地点就其特征(固定效应)而言,由于机会(随机效应),每种物种的生物量可能不同。

生物质收集阶段,模型说明样本间差异由于它们可观察到的差异,例如“大小”在升水或土壤数量或水蛭数量方面,以及由于物种效应,即我们的样本收集方法对于收集某些物种的生物量比其他物种更有效(固定效应)。它也解释了随机性样本间噪声,即。因为相同的样本在其特征(固定效应)方面可能由于机会(随机效应)而具有不同数量的每个物种的生物量。最后,它考虑了误差,即它估计了我们未能收集样本中某个物种生物量的概率,以及样本中收集到的生物量是污染结果的概率。

生物量分析阶段,模型说明物种的影响例如,我们的PCR(例如引物)方法对于读取某些物种的生物量比其他物种更有效(固定效应)。它也解释了随机性聚合酶链反应之间的噪声,即。因为相同的pcr在其特征(固定效应)方面可能会由于机会(随机效应)而对每个物种产生不同的读数。最后,它占错误,即它的概率估计PCR未能给不小读取一个物种有可观的生物量在样例(即PCR应该给“大”读取一个物种,但它没有假阴性错误)和PCR的概率提供了可观的读取一个物种,微不足道的生物样本(PCR不应该给“大”读取一个物种,但,假阳性错误)。

这个模型也解释了spike-ins即,将已知数量的外部物种的生物量添加到所收集的生物量中的过程。这个过程有助于理解PCR噪声的水平。