网站统计分析工具（虚拟筛选之化合物库设计软件）

随着组合化学技术的发展，现代药物化学通过计算机虚拟合成的方法，可以得到规模庞大的筛选化合物库，理论上可以合成的类药化合物超过 1040 个。显然，合成所有化合物并一一投入细胞实验是不现实的，需利用一些规则筛选以减少合成的规模。面对如此大量的数据，就需要一系列融合了化学、数学及计算机等学科的化合物库设计工具，用于“从数据到信息，从信息到知识”的整个化学信息处理过程。本文小陶就带大家了解一下这些化合物库设计软件吧~设计软件分类常见的化合物库设计软件有 MOE (CCG), Chemosoft (Chemdiv), SmartMining (Chemdiv), ISIS Base (MDL), KNIME, NeuroSolution (NeuroDimension), PyMOL (Schrödinger), ICM Pro (Molsoft), AutoDock (Scripps), Discovery Studio (Accelrys) 等等。这些软件用途广泛，大致分为以下几类：01数据储存与管理每一个化合物的化学参数、光谱数据、纯度数据、生物活性测定值等各种相关数据被收集储存在数据库中，并实现快速调用与操作。这一步是后续所有分析处理的前提条件。 Fig 1. 利用Chemosoft查看化合物信息02构效关系研究指通过对现有活性化合物的分析，用数理统计的方法（如遗传算法、人工神经网络、支持向量机和投影寻踪回归等）建立起构效关系模型，来衡量化合物结构与生物活性之间的关系。二维定量构效关系法主要是以化合物整体结构为参数建立构效关系模型。典型的方法有 Hansch 方法、free-wilson 方法、分子连接性方法等。而三维定量构效关系法则是引入化合物的三维结构信息研究构效关系。这种方法间接反映了小分子与大分子相互作用过程中非键相互作用特征。最常用的方法是比较分子场法 (CoMFA) 、比较分子相似性方法 (CoMSIA)。 Fig 2. 构效关系研究基本思路03虚拟数据库设计最常用的方法是基于配体结构的设计：在生物靶点结构未知或以配体设计为侧重点的情况下，通过研究与靶点有特异性结合的配体结构性信息，进行药物设计的方法。可以利用已知活性分子的特定结构片段作为“特权”结构，寻找 2D 子结构；或是通过 3D 药效团分析，选择具有相似药效团的分子。另一种则是基于靶点结构的设计方法：以靶点结构为筛选模板，从与目标结合位点互补的可合成模板开始设计药物分子，然后再考虑用于每个随机点的可用分子砌块数据库。选择取代基则是基于它们与活性区域的特定残基相互作用能力以及合成的可行性。 Fig 3. 基于配体结构的设计方法04数据挖掘通过分析已有的化合物数据，整理出对亚结构、二维/三维相似性、分子形状、骨架、药效团层面的信息度量，从而拓展应用到其他化合物的选择。聚类分析就是一种重要的挖掘方法，通过寻找数据间的相似性来对数据进行分类，不仅可以优化大规模数据库的查询步骤，还可以发现数据中隐含的有用信息。 Fig 4. 三维聚类分析示例05统计分析主成分分析、因子分析等方法被用来进行化合物描述因子的降维，从而可以更加简单有效地表述分子信息并降低计算的复杂程度。例如主成分分析是应用最广泛的多维数据分析技术。它通过正交变换将一系列可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。通过这种方式可以把多个变量转换成二维/三维变量，在不减少变量的条件下，对数据进行降维处理。 Fig 5. 主成分分析示例06可视化分析可视化分析即通过图表的方式自动地进行数据的过滤和表达，再根据生成的结果进行分析。例如 Kohonen 提出的 SOM（自组织映射），是将矢量样本集映射到二维晶格上，从而保留原始空间的拓扑结构，用于高通量筛选数据的分析和可视化。不仅可以用作结构-活性关系的指标，还可以作为分类系统的基础，对组合库进行预测建模。 Fig 6. 基于SOM的可视化分析示例常用设计软件1.MOEMOE (Molecular Operating Environment)，是一个针对制药和生命科学的综合软件系统，集可视化、模拟和方法开发于一体。MOE 的功能十分全面，主要应用领域包括基于结构的设计、基于片段的设计、药效团发现、药物化学应用、生物学应用、蛋白质和抗体建模、分子建模和模拟、蛋白质与小分子对接研究等各个方面，全方位支持小分子药物及生物药设计。MOE 使用自成一体的编程系统以及 SVL (Scientific Vector Language，科学向量语言)。SVL 是一种化学专业易于接受的脚本语言，专门用于生命科学的应用开发。 Fig 7. MOE软件界面2.KNIMEKNIME 是一个免费和开源的数据挖掘平台，通过其模块化数据处理流程集成了各种机器学习算法和数据挖掘组件。KNIME 界面设计简洁，它将常用的算法封装成一个个节点。用户往往只需要少量的编程操作就可以构建算法工作流，从而实现数据源读取、数据准备、可视化探索、统计分析及数据挖掘等操作。 Fig 8. KNIME软件界面3.NeuroSolutionsNeuroSolutions 是一个高度图形化的人工神经网络集成开发环境。它能将基础的网络设计界面和各种高级语法（例如共轭斜量法和时间反向传播学习）结合起来，根据用户需求自动建立神经网络模型。可用来设计、训练、运用被监督/不被监督的神经网络模型从而运用于不同的任务，例如数据挖掘/分类、函数逼近、多元回归和时间序列预测。 Fig 9. NeuroSolutions软件界面4.PyMOLPyMOL 是一个分子三维结构显示软件，往往被用来创作生物大分子如蛋白质的三维结构。PyMOL 还可以实现自动插值、循环和光线跟踪帧、慢动作模拟、图像帧缓存等操作，非常适合有分子结构图创建需求的用户。据数据统计，所有已正式发表科学论文中的蛋白质结构图像，有四分之一是使用 PyMOL 来制作的。 Fig 10. PyMOL软件界面5.AutodockAutodock 是一个开源的分子模拟软件，主要用于预测配体和生物大分子靶点之间的相互作用。Autodock 采用拉马克遗传算法 (Lamarckian Genetic Algorithm，LGA) 来寻找配体与受体最佳的结合状态，用能量匹配来评价配体和受体之间的结合能力。同时为了平衡精准的计算与有限的计算资源间的矛盾，Autodock 采用基于格点能量的快速计算方法和有效的自由度探索方法以简化对接过程。 Fig 11. Autodock软件界面设计实例酪氨酸激酶是很有吸引力的癌症治疗生物学靶点，它们的异常信号常常与肿瘤的发展有很大的关系。此外，它们在其他疾病中也发挥着关键作用，例如炎症和类风湿关节炎。下图是酪氨酸激酶靶点库设计的具体步骤。 Fig 12. 酪氨酸激酶靶点库设计步骤在这些步骤里，Chemdiv 采用各种设计软件进行综合分析与筛选:利用 Chemosoft, MOE 等软件进行虚拟合成设计和过滤，采用独特的生物等排变构等方法设计具有高知识产权价值的酪氨酸激酶配体。利用 SmartMining 构建用于靶点库分析的神经网络模型，尤其是自组织 Kohonen 映射。Sammon 映射和支持向量机等算法也被应用来进行酪氨酸激酶靶点库设计。利用 Autodock 等软件进行分子对接。利用 Discovery Studio 等软件进行 ADME/Tox 评估，包括预测 P450-介导的代谢和毒性以及相关药代动力学参数。在分子动力学模拟中，通常需要模拟成千上万种不同的药物分子与靶蛋白结合后发生的变化，上述软件的运行对计算机的算力提出了很高的要求，而基于云技术的超算系统能完美地解决这一问题。陶素现推出超算云计算平台，利用丰富的超算集群资源和领先的并行AI云技术，帮助实验者高效处理海量运算需求，快速找到可能有效的药物结构，为后续实验阶段的化合物筛选和测试提供指导。如果您对我们的超算平台感兴趣，欢迎通过下面的联系方式找到我们，也可以咨询我司销售进一步了解。文章内容来源于网络，版权归原作者。

相关文章