تحديد الضرائب التي ترتبط بالخلايا البكتيرية الخاصة بنا مع الصفات المطلوبة هو مهم لتقدم العلوم والصحة. ومع ذلك، التحديد من المشكلة لأن الاتجاه المقاس لعدد الضرائب (بواسطة ترديد الأمبليكون) هو التركيبي، لذلك تحدث تغيير في كثافة ضريبة واحدة في البكتيريا تحديثا في عدد الترديد المسجل عبر جميع الضرائب. وتكون البيانات عادة ما تكون قليلة التوازن، مع عدد الصفرات الموجودة إما بسبب الاختلاف البيولوجي أو عمق الترديد الفني (الصفرات الفنية). للضرائب الكثافة المنخفضة، فإن الفرصة للصفرات الفنية غير محذوفة. نظرا لأن الطرق الموجودة المصممة لتحديد الكثافة المختلفة للبيانات التركيبية قد تتضمن عددا مرتفعا من الأشياء الخاطئة بسبب التعامل غير الصحيح مع الصفرات. نقدم طريقة جديدة غير باراميترية والتي توفر التأكيد الصحيح حتى عندما يكون نسبة الصفرات كبيرة. يستخدم طريقتنا مجموعة من الضرائب المرجعية التي لا تختلف في الكثافة، والتي يمكن تقديرها من البيانات أو من المعلومات الخارجية. نظرا لأننا نظهر أن الطريقة الجديدة هي مفيدة عبر المحاكاة، فضلا عن على ثلاث مجموعات بيانات مختلفة: دراسة مرض كرون، مشروع البكتيريا البشرية، وتجربة مع البكتيريا المحشوة.
Identifying which taxa in our microbiota are associated with traits of interest is important for advancing science and health. However, the identification is challenging because the measured vector of taxa counts (by amplicon sequencing) is compositional, so a change in the abundance of one taxon in the microbiota induces a change in the number of sequenced counts across all taxa. The data is typically sparse, with zero counts present either due to biological variance or limited sequencing depth (technical zeros). For low abundance taxa, the chance for technical zeros is non-negligible. We show that existing methods designed to identify differential abundance for compositional data may have an inflated number of false positives due to improper handling of the zero counts. We introduce a novel non-parametric approach which provides valid inference even when the fraction of zero counts is substantial. Our approach uses a set of reference taxa that are non-differentially abundant, which can be estimated from the data or from outside information. We show the usefulness of our approach via simulations, as well as on three different data sets: a Crohns disease study, the Human Microbiome Project, and an experiment with spiked-in bacteria.
Modern microbiome compositional data are often high-dimensional and exhibit complex dependency among microbial taxa. However, existing approaches to analyzing microbiome compositional data either do not adequately account for the complex dependency o
Differential abundance tests in compositional data are essential and fundamental tasks in various biomedical applications, such as single-cell, bulk RNA-seq, and microbiome data analysis. However, despite the recent developments in these fields, diff
We propose a method to test for the presence of differential ascertainment in case-control studies, when data are collected by multiple sources. We show that, when differential ascertainment is present, the use of only the observed cases leads to sev
Linear discrimination, from the point of view of numerical linear algebra, can be treated as solving an ill-posed system of linear equations. In order to generate a solution that is robust in the presence of noise, these problems require regularizati
Microbes can affect processes from food production to human health. Such microbes are not isolated, but rather interact with each other and establish connections with their living environments. Understanding these interactions is essential to an unde