技能简介
代谢组学是研究生物体中代谢物整体变化的学科,能够揭示疾病机制、发现生物标志物。 本教程使用Metabolomics Workbench(代谢组学数据库)和 HMDB(人类代谢组数据库), 从数据获取、代谢物注释、差异分析到通路富集,完整掌握代谢组学分析流程。
传统方式需要2周,AI辅助只需1小时!
💡 使用场景
心血管疾病研究
分析心衰、高血压等疾病患者的代谢物变化,发现潜在生物标志物
药物作用机制
研究药物对代谢通路的影响,揭示作用机制
疾病分型
基于代谢谱特征进行疾病亚型分型,实现精准医疗
多组学整合
将代谢组学与基因组学、转录组学数据整合,全面解析生物过程
🛠️ 核心技能调用
Step 1: 数据获取(Metabolomics Workbench)
# 使用Scientific Skills获取代谢组学数据 # 技能:scientific-skills:metabolomics-workbench-database # 检索心衰相关的代谢组学数据集 # 返回:数据集信息、样本数、代谢物数量 import metabolomics_workbench as mb # 搜索心衰相关研究 studies = mb.search_studies( disease="heart failure", organism="Homo sapiens" ) # 下载数据集 data = mb.download_study(study_id="ST000001") # 查看数据维度 print(f"样本数: {data.n_samples}") print(f"代谢物数: {data.n_metabolites}")
💡 Metabolomics Workbench: 由美国NIH资助的代谢组学数据库,包含大量公开数据集,涵盖人类、动物、植物等多种研究。
Step 2: 代谢物注释(HMDB)
# 使用Scientific Skills查询HMDB数据库 # 技能:scientific-skills:hmdb-database import hmdb_query as hmdb # 注释代谢物信息 metabolites = ["Carnitine", "Acetylcarnitine", "Glutamate"] for metab in metabolites: info = hmdb.get_metabolite_info(metab) print(f"代谢物: {info.name}") print(f" 化学分类: {info.classification}") print(f" 生物学功能: {info.biological_role}") print(f" 相关疾病: {info.diseases}")
📌 HMDB(Human Metabolome Database): 最全面的人类代谢组数据库,包含超过220,000个代谢物条目,提供化学结构、生物学功能、疾病关联等信息。
Step 3: 差异代谢物分析
# 使用scipy进行统计检验 # 技能:scientific-skills:scipy from scipy import stats import pandas as pd import numpy as np # 分离心衰组和对照组 hf_group = data[data.group == "heart_failure"] control_group = data[data.group == "control"] # 对每个代谢物进行Wilcoxon检验 results = [] for metab in data.metabolites: # Wilcoxon秩和检验 statistic, p_value = stats.mannwhitneyu( hf_group[metab], control_group[metab], alternative='two-sided' ) # 计算log2倍数变化 log2fc = np.log2( hf_group[metab].mean() / control_group[metab].mean() ) results.append({ 'metabolite': metab, 'log2FC': log2fc, 'p_value': p_value }) # FDR校正 from statsmodels.stats.multitest import multipletests results_df = pd.DataFrame(results) results_df['FDR'] = multipletests( results_df['p_value'], method='fdr_bh' )[1] # 筛选差异代谢物 significant = results_df[ (abs(results_df['log2FC']) > 1) & (results_df['FDR'] < 0.05) ]
Step 4: 通路富集分析
# 使用KEGG数据库进行通路分析 # 技能:scientific-skills:kegg-database import kegg_query as kegg # 获取差异代谢物列表 diff_metabs = significant['metabolite'].tolist() # KEGG通路富集 pathways = kegg.enrich_metabolites( metabolites=diff_metabs, organism='hsa' # 人类 ) # 显示显著富集的通路 for pathway in pathways: if pathway.p_adjust < 0.05: print(f"通路: {pathway.name}") print(f" p值: {pathway.p_adjust:.4f}") print(f" 涉及代谢物: {pathway.metabolites}")
📖 实战示例
案例1:心衰患者血浆代谢组学分析
研究背景:心力衰竭(HF)是全球主要死亡原因之一, 代谢紊乱在心衰发生发展中起重要作用。
分析流程:
- 从Metabolomics Workbench下载心衰患者血浆代谢组数据(n=100)
- 使用HMDB注释检测到的320个代谢物
- Wilcoxon检验筛选差异代谢物(|log2FC|>1, FDR<0.05)
- KEGG通路富集分析
主要发现:
- 鉴定出42个差异代谢物(28个上调,14个下调)
- 显著改变的通路:脂肪酸β氧化、氨基酸代谢、TCA循环
- 发现潜在生物标志物:乙酰肉碱、谷氨酸
启示:心衰患者能量代谢紊乱,脂肪酸氧化能力下降, 可能成为新的治疗靶点。
案例2:糖尿病肾病代谢标志物发现
研究背景:糖尿病肾病(DKD)是糖尿病的主要并发症, 早期诊断困难。
分析流程:
- 收集糖尿病肾病患者血清样本(病例组50例,对照组50例)
- LC-MS非靶向代谢组学检测
- 多变量统计分析(PCA、PLS-DA)
- 差异代谢物筛选和通路分析
主要发现:
- 发现15个差异代谢物可作为DKD潜在标志物
- 色氨酸代谢途径显著改变
- 构建的代谢标志物模型AUC=0.92
应用价值:这些代谢标志物可能用于DKD的早期诊断和病情监测。
案例3:药物作用机制研究
研究背景:研究某新型心血管药物的作用机制。
分析流程:
- 建立心肌细胞损伤模型
- 药物干预后收集细胞和培养上清
- 靶向代谢组学分析(氨基酸、脂质、能量代谢物)
- 比较药物组与对照组的代谢差异
主要发现:
- 药物显著改善线粒体功能相关代谢物水平
- 激活AMPK信号通路
- 促进ATP生成,减少氧化应激
结论:该药物通过改善能量代谢发挥心肌保护作用。
⚠️ 注意事项
数据质量控制
- • 代谢物检测需要严格的质控,包括内标、QC样本
- • 批次效应需要校正
- • 缺失值需要合理处理(<20%缺失可删除或填补)
统计方法选择
- • 数据不符合正态分布时,使用非参数检验(Wilcoxon)
- • 多重检验必须进行FDR校正
- • 小样本量时谨慎解读结果
生物学解释
- • 代谢物变化需要结合生物学知识解释
- • 查阅文献验证代谢物与疾病的关联
- • 通路富集结果需要考虑代谢网络的复杂性
🔗 相关技能链接
💡 代码包内含 README.md 文档,包含环境配置和运行说明。解压后即可使用。