Summary
- 本简报简述了在蛋白药物产品中的HCP分析挑战。提出了一种用于HCP来源肽段的 HPLC-MS/MS 数据评估的改进策略。
- 在全扫描 MS 水平上,增加了非特征性肽段匹配和序列相近蛋白质的匹配算法,结合基于特征性肽段的碎片离子质谱的鉴定,显著增加了检测到的肽和 HCP 的数量。
Introduction
生物制药的生产中,有部分会涉及到在宿主细胞中表达重组蛋白,然后对该目标蛋白进行纯化。 尽管在这个过程中有着严格的纯化程序,但宿主细胞蛋白 (HCP) 可能还是会被共同纯化并保留在最终的药物产品中,这就可能会降低产品的安全性和功效。 因此,在生物药物的生产和放行过程中,必须使用高灵敏度的分析方法来识别和量化残留的HCP。
高效液相色谱与串联质谱 (HPLC-MS/MS) 相结合的方法对于监测 HCP 有其特殊的优势,它可以做到对于HCP蛋白信息的注释。
以前的研究倾向于通过实验室前处理步骤的优化来提高可定性到的宿主细胞蛋白的数量,但是,采集到的MS/MS 数据却还是使用标准设置来进行分析。 在本文中,则采取另一种在分析水平上的改进,基于 HCP 衍生肽的 HPLC-MS/MS 数据分析策略。 该数据评估流程结合了: (a) 基于从碎片离子鉴定到所有肽的概率对蛋白质进行推断与 (b) 在全扫描 MS 水平上的肽检测(即使在没有 MS/MS 的情况下)。 我们的方法可以在现有的 HPLC-MS/MS 分析流程中,成为可以用于大分子表征以及工艺开发背景下的强有力的分析工具。
Experimental Conditions
Esser-Skala 等人,2020 [1] 提供了完整的实验细节。
这项工作采购了五种药物产品:单克隆抗体利妥昔单抗 (MabThera®) 和贝伐单抗 (Avastin®),以及融合蛋白依那西普(不同的2个生产商:Enbrel® 生产批次(美国和欧盟)和批准的生物仿制药 Benepali®)。 所有这些蛋白药物均源自 CHO 细胞中的重组表达。
本次研究分成为两个策略,第一种研究策略是HCP 鉴定最基本的分析流程,包括胰蛋白酶酶解、RP-HPLC-MS/MS 的谱图分析和针对 CHO 细胞数据库的蛋白质鉴定分析,如图 1 左侧所示。在做酶解之前,将蛋白质 β-半乳糖苷酶和 β-乳球蛋白添加到样品中。
第二种研究策略是使用了protein- A 亲和Fc domain-containing therapeutic proteins进行分级的方法,如图 1 所示。在纯化前,将蛋白质 β-半乳糖苷酶和 β-乳球蛋白添加到样品中。 收集在therapeutic protein通过protein-A后不同的穿流馏分及洗脱液,并对其进行分析。
在上述样本胰蛋白酶酶解后获得的肽混合物中加入 Hi3 标准品,并在配备分流 (1:100) 的 Thermo Scientific™ UltiMate™ 3000 HPLC 系统和 Waters 150 × 0.30 mm ACQUITY UPLC® CSH™ C18 色谱柱上进行三次分析。MS 选用的是Thermo Scientific™ Q Exactive™ Plus -Orbitrap 质谱仪。
获得原始数据后,使用 ProteinMetrics Inc. Byos® v3.4-72-g5fd2d85e63 x64 软件进行HCP 的鉴定工作。使用的数据库为UniProt 获得的 CHO 细胞的蛋白质序列,并在已有的CHO数据库中添加了以下序列:猪胰蛋白酶 (UniProt ID P00761)、金黄色葡萄球菌蛋白 A (P38507)、牛 β-乳球蛋白 (P02754)、大肠杆菌 β -半乳糖苷酶 (P00722)、Hi3 标准肽序列和各自的药物产品序列; 因此,每种药物都有一个专属于自己的数据库。通过FDR(false discovery rate) [2]为 1%(或 20 个反向计数)进行对肽段可信度的打分。通过 上述Byos® 提供的默认 HCP 工作流程进行初始数据分析后,使用软件中特有的算法模拟,对缺失的肽段进行补充,成为in silico peptides。
Figure 1: Reproduced from Esser-Skala, W. et al., https://doi.org/10.1007/s00216-020-02796-1
Schematic representation of the workflows used for HCP discovery in a drug product, which comprises a drug substance (i.e., the therapeutic protein) and minute amounts of HCPs. The two strategies applied involve direct analysis of HCPs in drug products or analysis of fractions obtained upon affinity depletion of the Fc domain-containing therapeutic protein. Peptide mixtures obtained upon tryptic digestion were analyzed by HPLC-MS/MS in triplicate. Data evaluation yields HCP profiles of replicates, which may be aggregated to HCP profiles of fractions and, ultimately, drug products, as indicated at the bottom of the figure.
Reproduced in accordance with the Creative Commons license http://creativecommons.org/licenses/by/4.0/.
如果肽符合以下三个标准,则称为in silico peptide(i.e.,在没有碎片离子光谱的情况下):(i)同一药品不同批次,通过 MS/MS 鉴定的所有相同的完整肽离子跨越的保留时间窗口不超过 30 秒。 (ii) 其完整肽离子的质量偏差(以 ppm 为单位)落在所有前体离子的质量偏差的 2.5% 和 97.5% 范围内,则这些前体离子的碎片离子可用。 (iii) 其完整肽离子的实验同位素模式与理论平均分布充分匹配(i.e., 其 Pearson 相关系数超过了具有碎片离子的所有前体离子系数的第 5 个百分位)。
Results and Discussion
使用直接分析与原料药过柱的 HCP 鉴定结果
- 使用每种蛋白质丰度最高的三个肽段评估已鉴定的 HCP ,相对于高丰度药物的相对数量,并根据 MS 峰面积计算累积丰度。
- 该分析证实,与已鉴定的 HCP 相比,相应的药物的丰度要高非常多。
- 药物来源肽段的共洗脱可能会通过离子抑制影响 HCP 来源肽段的检测。
- 与直接做酶解的工作流程相比,过protein A后分离馏分的工作流程(应用常规数据分析)能识别出更多的 HCP 来源肽段和 HCP,如图 2 中 Enbrel® EU 所示。
- Enbrel® EU 的增加最为显着,其中在至少一种馏分或洗脱液中检测到的唯一肽段和 HCP 的数量分别从 13 增加到 218 及 13 增加到 64。
Figure 2: Impact of depletion of the drug substance on the identification of HCP proteins in Enbrel®EU.
2A: Sum of extracted ion chromatogram area for top three peptides identified in three replicates of each sample: Column 1 Direct analysis; Column 2 Flow Through fraction from Protein A column; Column 3 Wash fraction from Protein A column. Added proteins and drug substance not included in calculation.
2B: Normalized sum (normalized against the maximum sum, in this case, the drug product) of extracted ion chromatogram area for top three peptides identified in three replicates of each sample: Column 1 Direct analysis; Column 2 Flow Through fraction from Protein A column; Column 3 Wash fraction from Protein A column. All proteins (including the drug substance shown in dark blue) included in calculation
通过概率蛋白质推断和in silico peptide改进 HCP 鉴定
- 尽管在前处理阶段,与直接工作流程相比,过protein A后分离馏分工作流程已经可以大大提高可识别肽段和 HCP 的数量,但传统的数据分析方式仍然忽略了采集到的谱图中存在的有价值信息。
- 因此,MS 数据评估通过 (a) 采用包括非特征肽段的概率蛋白质推断算法和 (b) 在没有 MS/MS 谱图的情况下在全扫描 MS 水平上进行肽段检测进行优化,避免低丰度肽段可能无法扫描到MS/MS 谱图的问题。
- 该算法需要收集在相同色谱条件下分析的样品的MS 数据文件,从而获得足够可重复的保留时间。对于通过碎片离子对至少检测一次的每个肽段,该算法从该肽的所有样品中收集MS/MS 谱图所有保留时间。然后,它会在全扫描 MS 水平的剩余样本中搜索这些保留时间的信号,因为这些信号可能代表未发生碎裂的肽段。对于这些信号中的每一个,软件都会计算两个度量来评估信号是否确实来自相应的肽:(1)实验质量与理论肽质量的偏差和(2)所谓的 MS1 相关性,即实验同位素分布与理论肽的同位素分布之间的 Pearson 相关系数,该理论肽具有相同数量的残基但完全由平均值组成。 (Averagine 是“平均”氨基酸的模型;其分子式为 C4.9384 H7.7583 N1.3577 O1.4773 S0.0417,对应的平均分子量为 111.1254 Da [3]。)
- Byos® 中的概率模型根据肽库中的全部证据对蛋白质鉴定进行排序,并将每个非特征肽分配给排名最高的蛋白质[4]。
- 此外,该模型通过FDR和肽段与质谱图匹配来控制蛋白质匹配率。因此,它允许进行大量蛋白质鉴定,同时确保两种错配率都保持在相当低的水平 [2]。
- 当应用于分离馏分工作流程的数据时,概率算法考虑了 10 到 29 个非特征肽段(分别在 Enbrel® US 和 Enbrel® EU)。
- 这些肽能够识别一到三个额外的 HCP(分别在 Avastin® 和 Enbrel® 批次中)。
- 通过重新评估分离馏分工作流程中的数据,在 Avastin 中检测到多达 17 种额外的肽,在 Benepali® 中检测到多达 4 种额外的 HCP,这些之前仅在直接工作流程中通过 MS/MS 检测到。
- 图 3 显示了在每种原料药的直接、分离馏分和洗脱液中鉴定的肽数量的比较,没有(图 3A)和(图 3B)包含“in-silico peptide”。
Figure 3: Peptide count for both the direct analysis and the depleted fractions (flow through fraction and wash fraction) for all drug substances. Figure 3A includes only peptides identified using MS/MS. Figure 3B includes all peptides identified both by MS/MS and those peptides detected on the full-scan MS level in the absence of MS/MS spectra (in silico peptides). All graphs are on the scale 0-500. As can be seen by comparison of 3A and 3B, many peptides were detected by full scan MS but were not triggered for MS/MS analysis. Column 1 Direct analysis; Column 2 Flow Through fraction from Protein A column; Column 3 Wash fraction from Protein A column. All proteins (including the drug substance shown in dark blue) included in calculation
HCP比较分析的概况
- 总体而言,分离馏分工作流程和深入数据分析的联合应用基于 537 种不同的肽段,在所有样品中确定了 127 种不同的 HCP。
- 有趣的是,尽管所有研究的药物都是在 CHO 细胞中产生的,但在所有这些细胞中只发现了三种 HCP是所有研究药物中共有的,分别是titin、nestin 和anionic trypsin-2。
- 这些常见的 HCP 可与蛋白药物共同纯化,可能是通过与IgG1 型 Fc 亚基相互作用。
Conclusions
本研究中,对蛋白药物在生产和放行中探索了用于发现 HCP 的 HPLC-MS/MS 数据的不同评估策略。 数据分析的革新,通过添加概率蛋白质推断和在全扫描 MS 水平上检测肽段,结合基于独特肽的碎片离子质谱的识别对传统方法进行了补充。
使用涉及蛋白药物分离馏分的实验工作流程,该方法显着增加了可识别肽和 HCP 的数量。 这些检测提升了已知的几种蛋白药物在HCP 库中的匹配,得到更多的相似性蛋白并将其量化。
总之,这些结果强调了对于从 LC-MS/MS 数据中获得深度信息并充分利用的重要性,而常规的标准数据分析策略仅能部分使用了这些信息。 当然,用于 HCP 识别的全扫描 MS 数据的方法为后续数据评估策略奠定了基础。
For more resources and background on intact mass data analysis workflows, visit https://www.proteinmetrics.com/workflows/ or contact the Customer Success Team at support@proteinmetrics.com.
Protein Metrics Inc.
Cupertino, California
USA
References:
[1] Esser-Skala, W., Segl, M., Wohlschlager, T. et al. Exploring sample preparation and data evaluation strategies for enhanced identification of host cell proteins in drug products of therapeutic antibodies and Fc-fusion proteins. Anal Bioanal Chem 412, 6583–6593 (2020). https://doi.org/10.1007/s00216-020-02796-1
[2] BernMW, Kil YJ. Two-dimensional target decoy strategy for shotgun proteomics. J Proteome Res. 2011;10(12):5296–301. https://doi.org/10.1021/pr200780j.
[3]. Senko MW, Beu SC, McLaffertycor FW. Determination of monoisotopic masses and ion populations for large biomolecules from resolved isotopic distributions. J Am Soc Mass Spectrom. 1995;6(4):229–33. https://doi.org/10.1016/1044-0305(95)00017-8.
[4] Bern M, Goldberg D. Improved ranking functions for protein and modification-site identifications. J Comput Biol. 2008;15(7):705–19. https://doi.org/10.1089/cmb.2007.0119.