تكنولوجيا

خوارزميات جديدة تعالج البيانات المتعاظمة

د. باسل أبو جاموس

أدَّى تسارُعُ التطوُّراتِ التقنية الحديثةِ إلى تَفَجُّرِ كمِّياتٍ هائلةٍ مِنَ البيانات في مختلفِ المجالات، ومنها مجالاتُ العلومِ الحيويَّة، إلى حَدٍّ لا يُستَطاعُ معه تَحليلُ تِلكَ البياناتِ واستِخراجُ النتائجِ منها بالعَقلِ البشريِّ المجرَّد، فلَو أخذنا مَصفوفَةَ التَّعبيرِاتِ الجينيّةِ (gene expression dataset) مِثالًا عَلى أحَدِ أنواعِ البياناتِ الحيويَّة الكبيرة، فإنَّ المصفوفَةَ الواحِدَةَ مِنها تَضُمُّ آلافًا وربما مئاتُ الآلافِ مِنَ الأرقامِ المجرَّدة.

وقد تَمَّ إنتاجُ نحوِ مئةِ ألفٍ مِنْ هذه المصفوفاتِ الكَبيرةِ حتى الآن. وتِلكَ ضَرورَةٌ ألجأتْ عُلماءَ الأحياءِ إلى الاستعانَةِ بِمهندسي المعلوماتِ (information engineers) الذين يُطوِّرون طُرُقًا وخوارِزمِيَّاتٍ حِسابِيَّةً لتحليل مثلِ تِلكَ البيانات الكبيرةِ باستِخدامِ الحواسيب. ثُمَّ صارَ هذا المجالُ المعنيُّ بتحليل البيانات الحيوية الكبيرَةِ باستِخدامِ الطرقِ الحسابيَّة فَنًّا مُستَقِلًّا يُعرَفُ بالمعلوماتيَّةِ الحيويةِ (bioinformatics).

ومعَ ذلك، فإنَّ المراقِبَ لهذا المجالِ خِلالَ العُقودِ الثلاثَةِ الأخيرة يَجد أنَّ سُرعةَ تَحليلِ البياناتِ الحَيويَّةِ الكبيرةِ وسَبرِ أغوارِها لاستِخراجِ مَكنوناتِها وكَشفِ خَباياها لا تزالَ قاصِرَةً عَنْ سُرعَةِ إنتاجِ البيانات الحيويَّةِ نفسِها، مِمَّا يُوَسِّعُ الفَجوَةَ بينَ كَمِّيَّةِ البيانات الكبيرةِ المتاحَةِ وكَمِّيَّةِ ما تَمَّ استِغلالُهُ مِنها في البحث العِلميّ، وهذا الحالُ يُحتِّمُ على مهندسي المعلوماتيَّةِ الحيويةِ أنْ يَجِدُّوا لتصميمِ وتطويرِ جيلٍ جَديدٍ مِنَ الطُرُقِ والخوارزمِيَّاتِ الحِسابيَّةِ القادِرَةِ عَلى تَحليلِ كَمِّيَّاتٍ أكبرَ مِنَ البياناتِ سَعيًا لتضييقِ تِلكَ الفَجوةِ.

مَنهجِيَّةُ الانقِيادِ بالفرضِيَّة 

يَغلُبُ عَلى الباحِثينَ في العُلومِ الحيَوِيَّةِ اتِّباعُ مَنهَجِيَّةٍ اسمُها “الانقِيادُ بالفَرضِيَّة” (hypothesis-driven) أو “الانقِيادُ بالسُّؤال البحثيّ” (research question-driven)، وهيَ منهجِيَّةٌ تعتمد عَلى قِيامِ الباحِثِ بالنَّظَرِ في المجهولاتِ التي يُهِمُّهُ اكتِشافُها بحسَبِ ما تُمليهِ عليهِ أولوِيَّاتُ بحثِه، ثُمَّ يَصيغُ هذا الباحِثُ فَرْضِيَّةً رُبَّما تُفَسِّرُ ذلك المجهولَ أو سُؤالًا مُحدَّدًا لو أُجيبَ عَنهِ لكَشَفَ الغِطاءَ عَنْ ذلكَ المطلوب. ولا يَصيغُ الباحِثُ الماهِرُ عادَةً فَرضِيَّةً ولا سُؤالًا إِلَّا ويُصَمِّمُ معهُ تَجرِبَةً لفحصِ الفرضيَّة أو الإجابة عَن السُّؤال، ولكنَّ العَديدَ مِنْ هذه التَّجارِبِ تتطلَّبُ إنتاجَ بياناتٍ جَديدَة، وكَثيرًا ما يَمضي الباحِثُ فيُنتِجُ تِلكَ البياناتِ الكبيرَةِ ويَستَعينُ بها عَلى فَحصِ الفرضِيَّةِ أو الإجابةِ عن السُّؤالِ.

تَكمُنُ المشكِلَةُ في أنَّ المعلوماتِ التي يُمكِنُ استِنباطُها مِنْ تلكَ البياناتِ غالبًا ما تَكونُ أكثرَ مِنْ مُجَرَّدِ الإجابَةِ عن ذلك السُّؤالِ الدَّافِعِ لإنتاجِها، لذا فإنَّ الباحِثَ بَعدَ أنْ يَقضيَ وَطَرَهُ مِنَ مصفوفَةِ البياناتِ يُودِعُها أحدَ مخازِنِ البياناتِ الحيويةِ الكبيرَةِ المفتوحَةِ للجميعِ حَتَّى يَستفيدَ منها غيرُهُ ويَستَخرِجَ مِنْ مُحتواها الغَزيرِ ما لم يَستَخرِجْه، ومَعَ ذلك فقَلَّما يَعودُ الباحِثونَ إلى تِلكَ البياناتِ المودَعَةِ ويُشبِعونها تَحليلًا واستِخراجا، بل رُبَّما احتاجَ باحثٌ آخَرُ إلى إنتاجِ بياناتٍ كَبيرَةٍ أخرى شبيهةٍ بتلكَ التي أنتَجَها السَّابِقونَ لكنَّها لا تماثِلُها تَمامًا، فيُضطَّرُ إلى إنتاج بياناتٍ جديدَةٍ ليُضيفَها إلى بحرِ البياناتِ الكبيرَةِ المتعاظِمِ يَومًا بعدَ يوم.

حَصيلَةُ تِلكَ المنهجيَّةِ المنقادَةِ بالفرضيَّاتِ والأسئلةِ البحثيَّةِ هِيَ تَراكُمُ مَصفوفاتِ البياناتِ الحيويَّةِ الكبيرَةِ بشكلٍ مُتسارِعٍ بَعدَ استِخدامِ كُلٍّ مِنها استِخدامًا جُزئيًّا، والعَديدُ مِنْ تِلكَ المصفوفاتِ تتشابَهُ أو تتشارَكُ في بَعضِ مواصفاتها ورُبَّما عالَجَتْ موضوعًا واحِدًا ولكنْ مِنْ زوايا مختلفة، فمثلًا، آلافُ مصفوفاتِ التعبير الجينِيّ أُنتِجَتْ من خلايا خميرَةِ الخبّــــَاز (Saccharomyces cerevisiae)، والكثيرُ الكثيرُ منها أُنتِجَتْ ضِمنَ إطارِ إجهادِ خلايا الخميرةِ بتعريضِها لضغوط حرارِيَّةٍ أو إشعاعِيَّةٍ أو إفقارِها مِنْ نوعٍ أو أنواعٍ مِنَ الغذاء، فكُلُّ مَصفوفَةٍ مِنْ تِلكَ تَفحَصُ جُزئِيَّةً معيَّنَةً مُختَلِفَةً لكنَّها كُلَّها تَصُبُّ في موضوعٍ واحِدٍ وَهُوَ فَحصُ أساليبِ خلايا الخميرَةِ في مواجَهَةِ الإجهادِ والضغط.

مَنهَجِيَّةُ الانقِيادِ بالبيانات 

صارَ مِنَ الضَّرورِيِّ تَبَنِّي منهَجِيَّاتٍ مُختَلِفَةٍ للتخفيفِ مِنَ هذا العجزِ في استغلالِ الطَّاقَةِ المعلوماتِيَّةِ الكامِنَة، ومِمَّا يُحَقِّقُ ذلكَ أنْ نُعيدَ زيارَةَ تِلكَ البياناتِ الكبيرَةِ الجاثِمَةِ في مخازِنِها والمتاحَةِ للجميعِ فنَنظُرَ فيها تَحليلًا غيرَ مَقُودٍ بفَرضِيَّةٍ أو سُؤالٍ بَحثِيٍّ معيَّن، بَلْ لنَستَثِيرِ البياناتِ نَفسَها حَتى تُخرِجَ ما فيها مِنْ مَعلوماتٍ رُبَّما كانَ مِنها ما هُوَ جَديدٌ لم يَعرِفْهُ الإنسانُ قَبلًا، وهذهِ المنهَجِيَّةُ في البَحثِ والاكتِشافِ تُعرَفُ بمنهَجِيَّةِ “الانقِيادِ بالبيانات” (data-driven).

لا شَكَّ أنَّ الطُّرُقَ الحِسابِيَّةَ والخَوارِزميَّاتِ التي يُمكِنُ استِعمالُها في منهجِيَّةِ الانقيادِ بالبياناتِ تَختَلِفُ – ولكن ليس دائِمًا – عَنْ طُرُقِ وخوارِزميَّاتِ مَنهَجِيَّةِ الانقِيادِ بالفرضِيَّة. ومِنْ عائِلاتِ الخوارِزمِيَّاتِ التي يُمكِنُ استِعمالُها بهذا الصَّدَدِ خوارِزمِيَّاتُ عنقَدَةِ أو تَجميعِ البياناتِ (data clustering algorithms). وهذه الخَوارِزمِيَّاتُ تَعمَلُ عَلى تَقسيمِ مَجموعَةٍ مِنَ العناصِرِ إلى عَدَدٍ منَ العناقيدِ (clusters) بحيثُ تَكونُ العناصِرُ المنتَمِيَةُ إلى نَفسِ العُنقودِ مُتشابِهَةً فيما بينَها ومُختلِفَةً عَنْ العناصِرِ المنتَمِيَةِ إلى العَناقيدِ الأُخرى، فيُمكِنُ مثلًا تَطبيقُ إحدى هذه الطُّرُقِ على إحدى مصفوفاتِ التعبيرِ الجينِيِّ الكَبيرَةِ لاستِخراجِ عَناقيدَ مِنَ الجيناتِ اللَّاتي تَتَشابَهُ في مُنحنياتِ تَعبيراتِها الجينِيَّة ضِمنَ الظُّروفِ الحيوِيَّةِ التي أُنتِجَتِ المصفوفَةُ فيها، ومِنْ ثَمَّ تُفحَصُ مُحتَوَياتُ هذه العَناقيدِ مِنْ حيثُ وَظائِف الجيناتِ المنتَمِيَةِ إليها، فإنْ وَجَدنا عُنقودًا تَكثُرُ فيهِ جيناتٌ نَعرِفُ مُساهَمتَها في عَمَلٍ واحِدٍ كمواجَهَةِ إجهادِ الصَّدمَةِ الحَراريَّة (heat shock response) مثلًا، ووجَدنا في نَفسِ العُنقودِ بعضَ الجيناتِ اللاتي لا عِلمَ لَنا بوَظائِفِها، فلَنا أنْ نَضَعَ فَرضِيَّةً تَنُصُّ عَلى أنَّهُ مِنَ المحتَمَلِ أنَّ وَظيفَةَ هذه الجيناتِ المجهولَةِ هِيَ في مُواجَهَةِ الصَّدمَةِ الحرارِيَّةِ أيضًا، فهذه نَتيجَةٌ لَمْ تَكُنْ بالضَّرورَةِ نَتيجَةَ تَجرِبَةٍ صُمِّمَتْ للإجابَةِ عن السُّؤالِ المحدَّد “ما هي الجينات المساهِمَةُ في مُواجَهَةِ الصَّدمَةِ الحَرارِيَّة”، بل هيَ نتيجَةٌ قادَتنا إليها البياناتُ حين حَلَّلناها تَحليلًا غيرَ مَشروطٍ أو مُقَيَّد.

تَحليلُ مَجموعاتِ من البياناتِ مَعًا

البياناتُ الموجودَةُ كثيرَةٌ، وكما أسلَفنا فإنَّ العَديدَ مِنها يُعالِجُ جُزئِيَّاتٍ تَنتَمي في الحَقيقَةِ إلى موضوعٍ حَيَوِيٍّ واحِد، فهَلَّا حَلَّلنا هذه المجموعَاتِ مِنَ البياناتِ مَعًا للحُصولِ عَلى نتيجَةٍ كُلِّيَّةٍ مِنها جميعًا؟ إذا فَعلْنا ذلك فإنَّ ثِقَتَنا بالنَّتائِجِ تَكونُ أكبَرَ؛ لأنَّ ذلك يَتَغَلَّبُ على المشكلاتِ المعروفَةِ في البياناتِ الكَبيرَةِ كضيَاعِ بَعضِ أجزائِها أو اختِلاطِها بأنواعٍ مِنَ ضَوضاءِ البيانات (data noise) التي تُضعِفُ الثِّقَةَ بمُطلَقِيَّةِ دِقَّةِ قِراءاتِها، ومن ثم فإنَّ تَحليلَ عَدَدٍ مِنَ المصفوفاتِ مَعًا يَضمَنُ أنَّهُ إذاْ أضاعَتْ إحدى مصفوفاتِ البياناتِ شَيئًا فإنَّ غيرَها مِنَ المصفوفاتِ تَملأُ الفَراغ، وإذاْ أثَّرَتِ الضَّوضاءِ عَلى مَصفوفَةٍ فإنَّ غَيرَها تَجبُرُ الخَلَل، وبهذا فإنَّنا لا نُساهِمُ بتَسريعِ عَمِليَّةِ استِخراجِ المعلوماتِ المكنونَةِ في البياناتِ فحَسْب، بَلْ ونَرفَعُ مِنْ مَوثوقِيَّةِ النَّتائِج ودِقَّتِها.

طُرُقِ حسابيَّة جديدة

يَحتاجُ تَطبيقُ ذلكَ الطُّموحِ إِلى جيلٍ جديدٍ مِنَ الطُّرُقِ الحِسابِيَّةِ القادِرَةِ عَلى التَّعاطي في وَقتٍ واحِدٍ مَعَ العَديدِ مِن مصفوفاتِ البياناتِ الكَبيرَةِ غيرِ المتجانِسَة (heterogeneous)، أي المختَلِفَةِ في تَفاصيلِها وأحجامِها والتِّقَنِيَّاتِ المنتِجَةِ لها ونِسَبِ الضَّوضاءِ فيها والظُّروفِ الحَيَوِيَّةِ التي رافَقَتْ إنتاجَها. وحاليا، قليلَةٌ هِيَ الطُرُقُ الحِسابِيَّةُ القادِرَةُ على ذلك، لا سِيَّما تِلكَ التي تَصلُحُ ضِمَنَ منهجِيَّةِ الانقِيادِ بالبيانات . وللتَّغَلِّبِ عَلى هذا العَجز، طَوَّرتُ بالتعاوُنِ مَعَ عَدَدٍ مِنَ الباحِثينَ عَبرَ السِّنواتِ الخَمسِ الأَخيرةِ سِلسِلَةً مِنَ الخوارِزميَّاتِ المتتابِعَةِ التي تَتَناوَلُ مجموعَةً مِنْ مصفوفاتِ البياناتِ الكَبيرَةِ، فَتَبدأُ بتَنقِيَتِها مِنَ الشوائِبِ وتَحويلِها إِلى مجالاتٍ مِعيارِيَّةٍ مُوَحَّدَةٍ يُمكِنُ ضِمنَها تَحليلُها مَعًا بِشَكلٍ مُقارِنٍ، ثُمَّ تُعَرَّضُ البياناتُ إلى العَنقَدَةِ مَرَّاتٍ عَديدَةٍ لِتُنتِجَ أعدادًا كَبيرَةً مِنَ العَناقيد التي يَتِمُّ اختِيارُ أَكثَرِها كَفاءَة، وأخيرًا فإنَّ خوارِزمِيَّةً أخرى تصقِلُ تِلكَ العناقيدَ بإزالَةِ عَناصِرِها التي كان يَنبغي ألا تَكونَ فيها وبإضافَةِ ما أخطَأتهُ إليها مِمَّا كانَ يَنبَغي أنْ يكونَ فيها.

تَطبيقاتٌ طِبِّيَّةٌ وحَيَوِيَّةٌ ونباتِيَّة

طَبَّقنا تِلكَ السِّلسِلَةَ مِنَ الخوارِزمِيَّاتِ في مجالاتٍ مُتنَوِّعَةٍ شملَتْ البَكتيريا، والخميرَةَ، وسَرطانَ الثَّديِ، وعمليَّاتِ إنتاجِ كُرَياتِ الدَّمِ الحَمراء في الإنسان، ونَشاطَ الدِّماغِ تحتَ تأثيرِ عَوامِلَ نَفسِيَّةٍ مختلِفَة، ومراحِلَ تَفعيلِ البناءِ الضَّوئيِّ في بَعضِ المحاصيلِ المهمَّة كالأَرُزِّ والذُّرة. وفي كُلِّ تَطبيقٍ كانت تُحَلَّلُ مجموعَةٌ – رُبَّما وصلَتْ إلى العَشرات – مِنَ المصفوفاتِ الكَبيرَةِ المتعلِّقَةِ بمَوضوعِ التَّطبيقِ للتوصلِ لِنتائِجَ ذاتِ أهمِّيَّةٍ في عُلومِ الطِّبِّ أو الأحياءِ أو النَّبات.

فمَثلًا، حَلَّلنا في تَطبيقٍ لَمْ يُنشَرْ بَعدُ 16 مصفوفَةَ تَعبيرٍ جينِيٍّ لِخُطوطٍ خَلَوِيَّةٍ صِناعِيَّةٍ مِنْ سَرَطانِ الثَّدي ، وسِتَّ مَصفوفاتِ تَعبيرٍ جِينِيٍّ لِأورامٍ حَقيقِيَّةٍ مِنْ ذلك السرَطانِ، فكانَتِ النَّتيجَةُ اكتِشافَ عُنقودَينِ (مَجموعَتَينِ) مِنَ الجينات، لكنَّ الأهَمَّ أنَّ تَصَرُّفَ العُنقودَينِ غريبٌ ولافِت، فنَشاطُ العُنقودَينِ مُتعاكِسٌ في الخُطوطِ الخلوِيَّةِ الصِّناعيَّةِ في حين أنه يَتَماثَلُ في الأورامِ السَّرَطانِيَّةِ الحَقيقيَّة، والملاحَظَةُ الأجدَرُ بالاهتِمامِ أنَّ مَرضى سَرطانِ الثَّديِ الذينَ لوحِظَ عِندَهُمُ ارتِفاعُ نَشاطِ العُنقودَينِ مَعًا كانُوا أسوَأَ حالًا وأسرَعَ إلى الوفاة، فصارَ ارتِفاعُ نَشاطِ العُنقودَينِ معًا بَصمَةً جينِيَّةً دالَّةً عَلى سُوءِ حالِ المريض، أمَّا لَوْ اكتَشَفنا هُوِيَّةَ المفاتيحِ الجينِيَّةِ التي تُحَفِّزُ نَشاطَ ذَينِكَ العُنقودَين، فإنَّ آفاقًا جَديدَةً سَتفَتِحُ لتَطويرِ عِلاجٍ لهذا المرضِ المستعصي.

وخُلاصَةُ القَولِ إنَّ هذا التَّعاظُمَ المتَسارِعَ في حَجمِ البياناتِ الحيوِيَّةِ الكَبيرَةِ لا بُدَّ أنْ يُواجَهَ لا بإبطائِهِ بَلْ بتَسارُعٍ مُماثِلٍ في تَحليلِ البياناتِ الكَبيرَةِ واستِخراجِ فَوائِدِها، فبالتَّوازي مَعَ جُهدِ عَلماءِ الأحياءِ الذين يُنتِجونَ بياناتٍ كَبيرَةً للإجابَةِ عَن أسئِلَةٍ بَحثِيَّةٍ مُعَيَّنة، يَجب عَلى خُبراءِ هندسَةِ المعلومات والمعلوماتِيَّةِ الحيَوِيَّةِ تَطويرُ جيلٍ جَديدٍ مِنَ الخوارِزمِيَّاتِ القادِرَةِ عَلى تَحليلِ كَمِّياتٍ أكبرَ مِنَ البياناتِ واستِثارَتِها لتُخرِجَ ما فيها مِنْ مَعلومات، وقَدْ أثبَتْنا جَدوى هذه الطَّريقَةِ حيثُ أنتَجْنا سِلسِلَةً مِنَ الخوارِزمِيَّاتِ التي تُحَقِّقُ ذلك وطَبَّقناها عَلى مجالاتٍ مُختَلِفَةٍ مِنَ البَكتيريا إلى الإنسانِ لنَصِلَ إلى اكتِشافاتٍ عِلمِيَّةٍ مهمَّة. ومَعَ ذلكَ، فإنَّ المجالَ مفتوحٌ والحاجَّةَ مُلِحَّةٌ لتطويرِ المزيدِ مِنَ تِلكَ الخوارِزميَّات، واستِعمالِها في شَتَّى التَّطبيقات، لتَسريعِ استِخراجِ المزيدِ مِنَ الاكتِشافات.

اظهر المزيد

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى
إغلاق
إغلاق