第13期：化合物数据库检索

⚠️

免责声明： 本内容仅供医学学习参考，不作为临床诊断依据。实际临床决策请结合患者具体情况和多学科意见。药物研发需遵循相关法规和伦理规范。

🎯

技能简介

化合物数据库检索是药物发现和化学信息学的核心技能。通过查询ChEMBL、PubChem、DrugBank等数据库，可以快速获取化合物的SMILES结构、活性数据、 物化性质、药物信息等关键数据。

传统检索方式需要打开网页、搜索、筛选、下载、整理，找100个化合物至少要1天。使用AI辅助检索，10分钟就能完成！

💡 使用场景

💊

靶点抑制剂筛选

针对特定靶点（如EGFR、TP53）检索已知的抑制剂化合物，获取活性和结构数据

🔬

先导化合物优化

分析同类化合物的结构-活性关系（SAR），指导药物分子设计

📊

药物重定位

查找已上市药物的新适应症，加速药物研发进程

🛒

实验采购

查找化合物供应商信息，快速获取实验所需的化学试剂

🛠️ 核心技能调用

📊

ChEMBL

生物活性分子数据库，含200万+化合物和1500万+活性数据

⚗️

PubChem

公共化合物数据库，含1.1亿+化合物和丰富的生物活性数据

💊

DrugBank

药物信息数据库，含1.5万+药物和详细的药理数据

1 ChEMBL - 生物活性数据检索

ChEMBL是最常用的药物活性数据库，包含IC50、Ki、EC50等活性数据，每条数据都有文献来源。适合查找特定靶点的抑制剂化合物。

# 调用ChEMBL数据库技能
# 示例：检索EGFR抑制剂

"从ChEMBL检索EGFR抑制剂：
- 靶点：EGFR (CHEMBL203)
- 活性类型：IC50
- 活性阈值：<100nM
返回SMILES、活性值、文献来源"

# 输出示例：
# 346个化合物
# Erlotinib - IC50: 2.5nM - PMID: 12345678
# Gefitinib - IC50: 33nM - PMID: 23456789
# ...

💡 活性阈值选择：
• <100nM：高活性化合物，适合进一步研究
• 100-1000nM：中等活性，可作为起点
• >1μM：低活性，参考价值有限
建议根据具体靶点和研究目的调整阈值。

2 PubChem - 补充检索

PubChem是NIH维护的公共数据库，除了结构信息，还包含丰富的物化性质、毒性数据、专利信息和供应商信息。

# 调用PubChem数据库技能
# 示例：补充检索化合物信息

"用PubChem检索这些化合物的：
- 物理化学性质（分子量、LogP、溶解度）
- 安全性数据（毒性、致突变性）
- 专利信息
- 供应商信息"

# 输出示例：
# Erlotinib
# - MW: 393.4 Da
# - LogP: 3.2
# - 供应商: Sigma-Aldrich, Selleckchem
# - 专利: US5747558

3 DrugBank - 药物信息查询

DrugBank专注于已批准和实验性药物的详细信息，包括适应症、作用机制、药代动力学、药物相互作用等。

# 调用DrugBank数据库技能
# 示例：查询已上市药物

"在DrugBank中查询哪些是已上市药物：
- 药物名称和商品名
- 适应症和批准状态
- 作用机制（MOA）
- 药代动力学（PK）参数"

# 输出示例：
# Erlotinib (Tarceva)
# - 状态：FDA批准
# - 适应症：NSCLC, 胰腺癌
# - MOA：EGFR酪氨酸激酶抑制剂
# - PK: 口服，t1/2=36h

4 结构分析

获取化合物结构后，可以进行骨架分析、官能团统计、类药性评估，为药物设计提供参考。

# 调用结构分析技能（如RDKit）

"分析这些化合物的结构特征：
- 骨架分类（Bemis-Murcko）
- 官能团统计
- 类药性评估（Lipinski规则）
- 分子指纹生成"

# 输出示例：
# 骨架：喹唑啉（quinazoline）
# 官能团：芳香胺、醚键、乙酰基
# Lipinski：5/5规则符合
# MW<500, LogP<5, HBD<5, HBA<10

📌 Lipinski规则（类药性五规则）：
• 分子量 ≤ 500 Da
• LogP ≤ 5（脂溶性）
• 氢键供体 ≤ 5
• 氢键受体 ≤ 10
符合这些规则的化合物更容易口服吸收。

📖 实战示例

Step 1: 靶点检索 - 找EGFR抑制剂

假设我们想研究EGFR（表皮生长因子受体）的抑制剂，用于非小细胞肺癌治疗。

# ChEMBL检索
target = "EGFR"  # 或使用靶点ID: CHEMBL203
activity_type = "IC50"
threshold = 100  # nM

# 检索结果
compounds = query_chembl(target, activity_type, threshold)
# 返回346个化合物

# Top 5化合物：
# 1. Erlotinib - IC50: 2.5 nM
# 2. Afatinib - IC50: 0.5 nM
# 3. Osimertinib - IC50: 1.2 nM
# 4. Gefitinib - IC50: 33 nM
# 5. Lapatinib - IC50: 11 nM

Step 2: 数据补充 - 获取物化性质

使用PubChem补充化合物的物理化学性质和安全性数据。

# PubChem批量查询
for compound in compounds:
    data = query_pubchem(compound.smiles)
    print(f"{compound.name}")
    print(f"  MW: {data.molecular_weight}")
    print(f"  LogP: {data.logp}")
    print(f"  TPSA: {data.tpsa}")
    print(f"  溶解度: {data.solubility}")

# 输出：
# Erlotinib
#   MW: 393.4 Da
#   LogP: 3.2
#   TPSA: 86.2 Å²
#   溶解度: 0.34 mg/mL

Step 3: 药物状态 - 查询上市信息

使用DrugBank查询哪些化合物已经上市，获取临床信息。

# DrugBank查询
approved_drugs = []
for compound in compounds:
    info = query_drugbank(compound.name)
    if info.approved:
        approved_drugs.append(info)
        print(f"{info.name} ({info.brand_name})")
        print(f"  适应症: {info.indications}")
        print(f"  批准年份: {info.approval_year}")

# 输出：
# Erlotinib (Tarceva)
#   适应症: NSCLC, 胰腺癌
#   批准年份: 2004
#
# Gefitinib (Iressa)
#   适应症: NSCLC
#   批准年份: 2002

💡 药物重定位机会：已上市药物的安全性已验证，可以探索新的适应症（药物重定位），这比从头开发新药更快捷、成本更低。

Step 4: 结果汇总 - 生成报告

整合所有数据，生成完整的化合物报告。

# 生成汇总表格
report = pd.DataFrame({
    '化合物': [c.name for c in compounds],
    'SMILES': [c.smiles for c in compounds],
    'IC50 (nM)': [c.ic50 for c in compounds],
    'MW': [c.mw for c in compounds],
    'LogP': [c.logp for c in compounds],
    'Lipinski': [c.lipinski_pass for c in compounds],
    '已上市': ['是' if c.approved else '否' for c in compounds],
    '供应商': [c.suppliers for c in compounds]
})

# 保存为Excel
report.to_excel('EGFR_inhibitors.xlsx', index=False)