代谢组学数据分析 - AI科研技能库

⚠️

免责声明： 本内容仅供医学学习参考，不作为临床诊断依据。实际临床决策请结合患者具体情况和多学科意见。

🎯

技能简介

代谢组学是研究生物体中代谢物整体变化的学科，能够揭示疾病机制、发现生物标志物。本教程使用Metabolomics Workbench（代谢组学数据库）和 HMDB（人类代谢组数据库），从数据获取、代谢物注释、差异分析到通路富集，完整掌握代谢组学分析流程。

传统方式需要2周，AI辅助只需1小时！

💡 使用场景

🫀

心血管疾病研究

分析心衰、高血压等疾病患者的代谢物变化，发现潜在生物标志物

💊

药物作用机制

研究药物对代谢通路的影响，揭示作用机制

🔬

疾病分型

基于代谢谱特征进行疾病亚型分型，实现精准医疗

🧬

多组学整合

将代谢组学与基因组学、转录组学数据整合，全面解析生物过程

🛠️ 核心技能调用

Step 1: 数据获取（Metabolomics Workbench）

# 使用Scientific Skills获取代谢组学数据
# 技能：scientific-skills:metabolomics-workbench-database

# 检索心衰相关的代谢组学数据集
# 返回：数据集信息、样本数、代谢物数量

import metabolomics_workbench as mb

# 搜索心衰相关研究
studies = mb.search_studies(
    disease="heart failure",
    organism="Homo sapiens"
)

# 下载数据集
data = mb.download_study(study_id="ST000001")

# 查看数据维度
print(f"样本数: {data.n_samples}")
print(f"代谢物数: {data.n_metabolites}")

💡 Metabolomics Workbench：由美国NIH资助的代谢组学数据库，包含大量公开数据集，涵盖人类、动物、植物等多种研究。

Step 2: 代谢物注释（HMDB）

# 使用Scientific Skills查询HMDB数据库
# 技能：scientific-skills:hmdb-database

import hmdb_query as hmdb

# 注释代谢物信息
metabolites = ["Carnitine", "Acetylcarnitine", "Glutamate"]

for metab in metabolites:
    info = hmdb.get_metabolite_info(metab)
    print(f"代谢物: {info.name}")
    print(f"  化学分类: {info.classification}")
    print(f"  生物学功能: {info.biological_role}")
    print(f"  相关疾病: {info.diseases}")

📌 HMDB（Human Metabolome Database）：最全面的人类代谢组数据库，包含超过220,000个代谢物条目，提供化学结构、生物学功能、疾病关联等信息。

Step 3: 差异代谢物分析

# 使用scipy进行统计检验
# 技能：scientific-skills:scipy

from scipy import stats
import pandas as pd
import numpy as np

# 分离心衰组和对照组
hf_group = data[data.group == "heart_failure"]
control_group = data[data.group == "control"]

# 对每个代谢物进行Wilcoxon检验
results = []
for metab in data.metabolites:
    # Wilcoxon秩和检验
    statistic, p_value = stats.mannwhitneyu(
        hf_group[metab],
        control_group[metab],
        alternative='two-sided'
    )

    # 计算log2倍数变化
    log2fc = np.log2(
        hf_group[metab].mean() / control_group[metab].mean()
    )

    results.append({
        'metabolite': metab,
        'log2FC': log2fc,
        'p_value': p_value
    })

# FDR校正
from statsmodels.stats.multitest import multipletests
results_df = pd.DataFrame(results)
results_df['FDR'] = multipletests(
    results_df['p_value'],
    method='fdr_bh'
)[1]

# 筛选差异代谢物
significant = results_df[
    (abs(results_df['log2FC']) > 1) &
    (results_df['FDR'] < 0.05)
]

Step 4: 通路富集分析

# 使用KEGG数据库进行通路分析
# 技能：scientific-skills:kegg-database

import kegg_query as kegg

# 获取差异代谢物列表
diff_metabs = significant['metabolite'].tolist()

# KEGG通路富集
pathways = kegg.enrich_metabolites(
    metabolites=diff_metabs,
    organism='hsa'  # 人类
)

# 显示显著富集的通路
for pathway in pathways:
    if pathway.p_adjust < 0.05:
        print(f"通路: {pathway.name}")
        print(f"  p值: {pathway.p_adjust:.4f}")
        print(f"  涉及代谢物: {pathway.metabolites}")