
Recognition of c-myc gene promoter by human RBMS1 protein. The figure shows RBMS1 protein scanning the DNA in search of its target sequence and binding to the sequences nucleotides in a specific manner. The surface view of the crystal structure of RBMS1 protein is shown bound with the bases of nucleotides of c-myc promoter. The structure of free RBMS1 was determined using liquid-state NMR spectroscopy. The work was done by Ms. Priyanka Aggarwal.
Decoding the codes of life stored in DNA is a challenge, which is performed in a tightly regulated manner by the cell. Decoding involves reading the correct code at the right time by DNA-binding proteins. The decoded information is then channeled through mRNA. This requires an efficient and highly specific interaction between protein and DNA that controls some of the most important processes pertaining to cell survival and growth. Any dysregulation in the process can lead to malfunctioning of the cell and disease. Proteins search and bind specific sequences in the background of billions of bases in the genome. This happens through a combination of 1D sliding, 2D hopping, and 3D diffusion.
Understanding the specificity of protein-DNA interactions is a long-standing question that has been attempted to understand many times by scientists all over the world. Thermodynamics and kinetics have always been discussed to be behind the matters concerning DNA binding specificity and affinity. The evidence, however, remains scarce when answering the crucial biological questions.
In this background, we have worked on human RBMS1 protein that has been shown to directly regulate the c-myc gene expression levels in cancerous cells. In our study, we have elucidated the molecular basis of RBMS1-promoter DNA interaction and understand the mechanism for specificity. The work provides the first structural and dynamic characterization of human RBMS1 protein, which controls the expression of c-myc proto-oncogene inside the human cell by its interaction with a 7-base-pair consensus sequence within the 21-bp promoter/ autonomous origin of replication region 2 kb upstream of c-myc proto-oncogene.
During the work, we overcame different challenges. Bioinformatic studies have failed to correctly identify the domain boundary, leading to protein instability. It required a careful human analysis using some of the fundamentals of molecular biophysics to redesign the construct. We extended the boundary by 5 residues, which led to the expression of a highly stable RBMS1 protein. This is a lesson for students who blindly trust bioinformatics results and artificial intelligence.
We performed extensive binding assays with different DNA sequences, varying the bases and length of the sequences, to answer the question of specificity. We determined the 2.57 Å crystal structure of RBMS1 in its promoter DNA-bound state that provided atomic-resolution insight into the specific binding of individual nucleotides of DNA with the protein. The NMR structure of free RBMS1 was solved, as the protein did not crystallize, most likely due to its inherent flexibility, which we confirmed through NMR relaxation dynamics. The protein undergoes a hinge-like motion in order to bind to the specific DNA, which is facilitated by flexibility in the linker region. The X-ray structure of RBMS1-c-myc promoter DNA complex and solution NMR structure of RBMS1 protein helped us to delineate the non-canonical binding mode of RBMS1 with the promoter DNA.
In a nutshell, the mechanism of specificity of RBMS1 binding with the promoter is driven by thermodynamics and the dynamic domain reorganization, which is responsible for conferring specificity and affinity. The work has implications for understanding the general mechanism of protein-DNA interactions that involves sliding, hopping, and diffusion during the stochastic target search process in a dense nucleus. In addition, the work is likely to aid in designing future anti-gene therapies.
डी.एन.ए. में संग्रहीत जीवन की संहिता को पढ़ना एक चुनौती है, जिसे कोशिका द्वारा एक कड़े नियंत्रित तरीके से किया जाता है। यह प्रक्रिया एक बहुत ही समयबद्ध तरीक़े से डी.एन.ए. से जुड़ने वाले प्रोटीनो द्वारा क़ी जाती है। डी.एन.ए. में छिपी गूढ़लिपि जानकारी एम-आर.एन.ए. के माध्यम से प्रसारित होती है। इसके लिए प्रोटीन और डी.एन.ए. के बीच एक कुशल और अत्यधिक विशिष्ट संवाद की आवश्यकता होती है, जिससे कोशिका के अस्तित्व बनाए रखने और उसके विकास से संबंधित महत्वपूर्ण प्रक्रियाएँ नियंत्रित होती है। इन प्रक्रियाओं में किसी भी प्रकार की त्रुटि से कोशिका में विकृति हो जाती है और रोग उत्पन्न होते है। प्रोटीन जीनोम में अरबों आधारों की पृष्ठभूमि में विशिष्ट अनुक्रम खोजते हैं और उनके साथ सम्बंध बनाते हैं। यह एक-आयामी फिसलन, द्वि-आयामी कूदन एवं त्रि-आयामी विसरण के एक संयोजन से होता है।
प्रोटीन-डी.एन.ए. के इस पारस्परिक सम्बंध की विशिष्टता को समझने का प्रयास विश्व भर के वैज्ञानिकों द्वारा एक लंबे समय से किया जा रहा है। डी.एन.ए. से सम्बंध बनाने की विशिष्टता और आत्मीयता के पीछे ऊष्मप्रवैगिकी और गतिकी का योगदान प्रमुख माना गया है। हालांकि, इन विषयों में साक्ष्यों के दुर्लभ होने के कारण महत्वपूर्ण जैविक प्रश्नों का उत्तर देना कठिन हो जाता है।
इस पृष्ठभूमि को ध्यान में रखकर हमने मानव आर.बी.एम.एस.१ प्रोटीन पर कार्य किया है। आर.बी.एम.एस.१ प्रोटीन जो कैंसर ग्रसित कोशिकाओं में सी-मिक जीन अभिव्यक्ति के स्तर को नियंत्रित करता है । अपने अध्ययन में हमने आर.बी.एम.एस.१-प्रमोटर डी.एन.ए. से सम्बंध बनाने की प्रक्रिया के आणविक आधार को स्पष्ट किया है और विशिष्टता के लिए तंत्र को समझा है। हमारा ये शोध मानव आर.बी.एम.एस.१ प्रोटीन का पहला संरचनात्मक और गतिशीलता लक्षण वर्णन प्रदान करता है। इससे हमें आर.बी.एम.एस.१ प्रोटीन द्वारा मानव कोशिका के भीतर सी-मिक प्रोटो-ओन्कोजीन से २ किलो बेस से आगे स्थित २१ बेस जोड़ी प्रमोटर/स्वायत्त प्रतिरूप क्षेत्र के अंतर्त्स्थित ७ बेस जोड़ी सर्वसम्मत डी.एन.ए. अनुक्रम से जुड़ने की प्रकिया को समझने में सहायता मिलती है।
शोध के दौरान हमने विभिन्न चुनौतियों का सामना किया। जैव सूचनात्मक अध्ययन आर.बी.एम.एस.१ प्रोटीन के इकाइयों की सीमा की सही परिमापन करने में विफल रहे जिसके कारणवश हमें इस प्रोटीन को एक दृढ़ अवस्था में पाने में कठिनायों का सामना कारण पड़ा। फिर हमने आणविक जैव-भौतिकी के मूलभूत सिद्धांतों का उपयोग करते हुए सावधानीपूर्वक विश्लेषण का सहारा लिया। हमने दूसरी इकाई की सीमा को ५ अमिनो ऐसिड अवशेषों से बढ़ाया है जिससे अत्याधिक स्थिर आर.बी.एम.एस.१ प्रोटीन को प्राप्त करने में सफलता मिली। यह उन छात्रों के लिए एक सबक है जो अपने चक्षुओं को बंद करके जैव सूचना विज्ञान के परिणामों और कृत्रिम बुद्धिमत्ता को अक्षरशः सही मानते हैं ।
हमने विशिष्टता के प्रश्न का उत्तर देने के लिए भिन्न-भिन्न डी.एन.ए. अनुक्रमों की प्रकार और लंबाई में परिवर्तन करते हुए प्रोटीन के साथ सम्बंध बनाने की प्रक्रिया का विस्तार से अध्ययन किया। हमने आर.बी.एम.एस.१ की २.५७ Å स्तर पर आर.बी.एम.एस.१ की प्रमोटर डी.एन.ए. से जुड़ी अवस्था का स्फटिक संरचना को निर्धारित किया है। इससे प्रोटीन द्वारा डी.एन.ए. के अलग-अलग न्यूक्लियोटाइड के साथ बनाए जाने वाले विशिष्ट बंधन की परमाणु-स्तर पर अंतर्दृष्टि मिलती है। चूँकि डी.एन.ए.-मुक्त आर.बी.एम.एस.१ प्रोटीन के स्फटिक हमें प्राप्त नहीं हुए, इसलिए हमने इसकी संरचना एन.एम.आर. द्वारा निर्धारित किया। प्रोटीन के स्फटिक नहीं मिलने का कारण शायद इसका अंतर्निहित लचीलापन है, जिसकी पुष्टि हमने एन.एम.आर. आधारित विश्रांति गतिकी के विश्लेषण से की । अपने विशिष्ट डी.एन.ए. से जुड़ने की प्रक्रिया में प्रोटीन के दोनो इकाइयों के बीच एक क़ब्ज़े के समान घुमाव होता है, जिसमें दोनो इकाइयों के बीच के श्रृंखलक का लचीलापन सहायक होता है। आर.बी.एम.एस.१-सी-मिक प्रमोटर डी.एन.ए. कॉम्प्लेक्स की एक्स-रे संरचना और आर.बी.एम.एस.१ प्रोटीन की एन.एम.आर. संरचना ने हमें प्रमोटर डी.एन.ए. के साथ आर.बी.एम.एस.१ द्वारा के गैर-वैधानिक रूप से बनाए जाने वाले सम्बंध को समझने में सहायता प्रदान की।
संक्षेप में प्रमोटर के साथ आर.बी.एम.एस.१ द्वारा स्थापित सम्बंध की विशिष्टता ऊष्मप्रवैगिकी और इकाइयों के गतिशील पुनः-संगठन द्वारा संचालित होती है, जो विशिष्टता और आत्मीयता प्रदान करने के लिए उत्तरदायी है। हमारा यह शोध प्रोटीन-डी.एन.ए. सम्बंध के सामान्य तंत्र को समझने में निहितार्थ हैं, जिसमें घने नाभिक में लक्ष्य खोज प्रक्रिया के दौरान प्रोटीन द्वारा किए जाना वाला फिसलन, कूदन और विसरण शामिल है। इसके अलावा, इस काम से भविष्य में एंटी-जीन उपचारों को बनाने में मदद मिलने की संभावना है।
References
- Aggarwal P* and Bhavesh NS* (2021) Hinge like domain motion facilitates human RBMS1 protein binding to proto-oncogene c-myc promoter. Nucleic Acids Res. 49, 5943-5955
- Structure co-ordinates: Protein Data Bank (PDB) accession numbers 6M75 and 7C36.