杜克大學的生物醫(yī)學工程師展示了一種新方法,可以在僅使用一小部分可用數(shù)據(jù)的情況下顯著提高機器學習模型搜索新分子療法的有效性。通過使用主動識別數(shù)據(jù)集中差距的算法,研究人員在某些情況下可以將其準確性提高一倍以上。
(相關資料圖)
這種新方法可以使科學家更容易地識別和分類具有可用于開發(fā)新候選藥物和其他材料的特征的分子。
這項工作發(fā)表在英國皇家化學學會6月23日出版的《DigitalDiscovery》雜志上。
機器學習算法越來越多地用于識別和預測小分子(例如候選藥物和其他化合物)的特性。盡管計算能力和機器學習算法都取得了顯著進步,但它們的能力目前受到用于訓練它們的現(xiàn)有數(shù)據(jù)集的限制,而這些數(shù)據(jù)集遠非完美。
主要問題之一涉及數(shù)據(jù)偏差。當有大量數(shù)據(jù)點展示一種特性遠遠多于另一種特性時,就會發(fā)生這種情況,例如分子抑制特定蛋白質的潛在能力或其結構特征。
杜克大學生物醫(yī)學工程助理教授DanielReker解釋道:“這就好像你訓練了一種算法來區(qū)分狗和貓的圖片,但你給了它10億張狗的照片來學習,而只有100張貓的照片?!?。“該算法將非常擅長識別狗,以至于一切都開始看起來像狗,并且它會忘記世界上的其他一切?!?/p>
對于藥物發(fā)現(xiàn)和開發(fā)來說,這是一個特別成問題的問題,科學家們經常處理的數(shù)據(jù)集顯示,99%以上的測試化合物“無效”,并且只有一小部分分子被標記為可能有用。
為了解決這個問題,研究人員使用了一種稱為數(shù)據(jù)子采樣的過程,他們的算法從一個小的但(希望)具有代表性的數(shù)據(jù)子集中學習。雖然此過程可以通過為模型提供相同數(shù)量的示例來學習來消除偏差,但它也可能會刪除關鍵數(shù)據(jù)點并對算法的整體準確性產生負面影響。為了彌補這一缺陷,研究人員開發(fā)了數(shù)百種二次采樣技術來限制丟失的信息量。
但雷克和他的合作者想要探索一種稱為主動機器學習的技術是否可以解決這個長期存在的問題。
“通過主動機器學習,算法本質上能夠在感到困惑或感覺到數(shù)據(jù)中存在差距時提出問題或請求更多信息,而不是被動地篩選數(shù)據(jù),”雷克說?!斑@使得主動學習模型在預測表現(xiàn)方面非常有效?!?/p>
通常,Reker和其他研究人員應用主動學習算法來生成新數(shù)據(jù),例如識別新藥物,但Reker和他的團隊希望探索如果在現(xiàn)有數(shù)據(jù)集上釋放該算法會發(fā)生什么。雖然主動機器學習的二次采樣應用已經在其他研究中進行了探索,但Reker和他的團隊是第一個在分子生物學和藥物開發(fā)中測試該算法的人。
為了測試主動二次采樣方法的效率,研究小組編制了具有不同特征的分子數(shù)據(jù)集,包括可以穿過血腦屏障的分子、可以抑制與阿爾茨海默病相關的蛋白質的分子,以及已被證明可以抑制阿爾茨海默病的化合物。HIV復制。然后,他們針對從完整數(shù)據(jù)集學習的模型和16種最先進的子采樣策略測試了主動學習算法。
該團隊表明,主動二次采樣能夠比每種標準二次采樣策略更準確地識別和預測分子特征,最重要的是,在某些情況下,比在完整數(shù)據(jù)集上訓練的算法效率高出139%。他們的模型還能夠準確地調整數(shù)據(jù)中的錯誤,這表明它對于低質量的數(shù)據(jù)集特別有用。
但最令人驚訝的是,該團隊發(fā)現(xiàn)理想的使用數(shù)據(jù)量遠低于預期,在某些情況下僅需要可用數(shù)據(jù)的10%。
“主動二次采樣模型會在某個時刻收集它需要的所有信息,如果添加更多數(shù)據(jù),就會對性能產生不利影響,”Reker解釋道。“這個問題對我們來說特別有趣,因為它暗示存在一個拐點,即使在子樣本中,更多信息也不再有幫助。”
雖然雷克和他的團隊希望在未來的工作中研究這個拐點,但他們還計劃使用這種新方法來識別潛在治療靶點的新分子。由于主動機器學習在許多不同的研究領域變得越來越流行,該團隊樂觀地認為他們的工作將幫助科學家更好地理解這種算法及其對數(shù)據(jù)錯誤的魯棒性。
“這種方法不僅可以提高機器學習性能,而且還可以減少數(shù)據(jù)存儲需求和成本,因為它使用的是更精細的數(shù)據(jù)集,”雷克說?!斑@使得機器學習對每個人來說都更具可重復性、可訪問性和強大性。”
更多信息:YujingWen等人,通過自適應子采
關鍵詞: