Просторова структура білка визначає його біохімічні властивості, а отже і функцію. Те ж стосується його вторинних елементів, що набувають у трьох-вимірному просторі форми альфа-спіралей, бета-ланцюгів, петель та інших утворень. Автоматичне виявлення таких утворень за відповідними їм послідовностями амінокислот у білку дасть змогу каталогізувати ці фрагменти послідовностей, дослідити та систематизувати їх відповідність просторовим білковим утворенням, що у свою чергу має спростити задачу пошуку комплементарної і функціональної подібності різних білків. З цією метою розроблено та випробувано метод, що базується на коваріаційному, автокореляційному та просторово- спектральному аналізі ембедінгів їх амінокислотних послідовностей.
- Wang, C., Fan, H., Quan, R., & Yang, Y. (2024). ProtChatGPT: Towards Understanding Proteins with Large Language Models. arXiv preprint arXiv:2402.09649.
- Rives, A., Meier, J., Sercu, T., Goyal, S., Lin, Z., Liu, J., ... & Fergus, R. (2021). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proceedings of the National Academy of Sciences, 118(15), e2016239118.
- Kryshtafovych, A., Schwede, T., Topf, M., Fidelis, K., & Moult, J. (2023). Critical assessment of methods of protein structure prediction (CASP)—Round XV. Proteins: Structure, Function, and Bioinformatics, 91(12), 1539– 1549.
- Heinzinger, M., Elnaggar, A., Wang, Y. et al. Modeling aspects of the language of life through transfer- learning protein sequences. BMC Bioinformatics 20, 723 (2019). https://doi.org/10.1186/s12859-019-3220-8.
- Ali, S., & Patterson, M., “Spike2Vec: An efficient and scalable embedding approach for COVID-19 spike sequences”, IEEE International Conference on Big Data, 2021.
- H. M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne, The Protein Data Bank (2000) Nucleic Acids Research 28: 235–242 https://doi.org/10.1093/nar/28.1.235.
- Ali, S., Chourasia, P., & Patterson, M. (2023). When Protein Structure Embedding Meets Large Language Models. Genes, 15(1), 25.
- Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., ... & Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583–589.
- Di Tommaso, P., Moretti, S., Xenarios, I., Orobitg, M., Montanyola, A., Chang, J. M., ... & Notredame, C. (2011). T-Coffee: a web server for the multiple sequence alignment of protein and RNA sequences using structural information and homology extension. Nucleic acids research, 39(suppl_2), W13-W17.
- Vehlow, C., Stehr, H., Winkelmann, M., Duarte, J. M., Petzold, L., Dinse, J., & Lappe, M. (2011). CMView: interactive contact map visualization and analysis. Bioinformatics, 27(11), 1573–1574.
- The PyMOL Molecular Graphics System, Version 2.5 Schrödinger, LLC.