د. منير وزير
شهدت البيانات الضخمة على مدار العقد الماضي ثورة كبيرة في قطاع الرعاية الصحية والأبحاث البيوطبية، إذ تزايدت المنشورات العلمية في هذه المجالات بصورة لافتة (الشكل 1).
و يشير مصطلح البيانات الضخمة إلى البيانات المعقدة التي يتم جمعها بسرعة غير مسبوقة، والتي تتطلب إمكانات كبيرة للتخزين لا يمكن إدارتها وتحليلها باستخدام الأساليب التقليدية. وبموجب هذا التعريف، فإن ما قد يعتبر من البيانات الضخمة في وقتنا الحاضر ربما لا يكون كذلك مع تقدم الأبحاث. وبتعبير آخر فإن ما هو ضخم اليوم ربما لا يكون كذلك غدا بالضرورة.
خصائص البيانات الضخمة
يحدد الباحثون البيانات الضخمة بخمس خصائص مهمة ، هي (الشكل 2):
> الحجم: يتعلق بكميات هائلة من البيانات المخزنة في بعض قواعد البيانات (مثل قواعد البيانات الناتجة عن استخدام المصفوفات الرقيقة للجينات)، والتي تراوح عادة بين التيرابايت (1012 بايت)، و البيتابايت (1015 بايت)، وقد تصل إلى الزيتابايت (1021 بايت)، وبما إلى اليوتابايت (1024 بايت).
> السرعة: تنطبق على الوتيرة العالية لإنشاء البيانات الجديدة، وهو ما يمكن ملاحظته عند محاولة رصد الأحداث في الزمن الحقيقي، كمراقبة حالة مريض بصورة آنية من خلال أجهزة الاستشعار الطبية أو محاولة تتبع انتشار وباء ما.
> التنوع: يشير إلى مختلف أنواع البيانات وأشكالها، ومصادرها العديدة، و كذا مستوى تعقيدها.
> المصداقية: تقيس دقة وصدق البيانات نظرا لاحتمال ارتفاع نسبة الضوضاء في البيانات، أو عدم اكتمالها، أو خطئها (احتمال وجود عيوب في الأجهزة البحثية أو الطبية المستعملة، أو وجود أخطاء في المعلومات المخزنة عن المريض في قواعد البيانات على سبيل المثال) مما يدعو إلى تقييمها بصورة صحيحة.
> القيمة: تمثل مدى جودة البيانات في إشارة إلى النتائج المرجوة و المعرفة العلمية التي توفرها هذه البيانات.
وبينما كان هذا النوع من البيانات يشمل السجلات الصحية الإلكترونية، وبيانات علم الجينوم وبيانات التصوير الإشعاعي، فقد أصبحت البيانات في أشكال جديدة مع ظهور التقنيات الحديثة، مثل البيانات الفيزيولوجية
والنفسية (خصوصا البيانات في الزمن الحقيقي التي يتم جمعها مباشرة من خلال أجهزة استشعار)، والبيانات الإلكترونية التي تعتمد على الإنترنت (تعليقات المرضى والمشاركات في الشبكات الاجتماعية على الإنترنت. وكمثال على ذلك، هناك أكثر من 1110 مقالات علمية ذات صلة بالصحة ذكرت موقع تويتر كمصدر للمعلومات) والهواتف الذكية والساعات الذكية التي تجمع المعلومات الصحية الخاصة بكل شخص أينما كان.
البيانات في البحوث السريرية
وأظهرت الأبحاث العلمية أدلة إيجابية حول أهمية البيانات الضخمة في البحوث السريرية، ولاسيما في حالة البيانات المنتجة للفرضيات العلمية والبحوث الطبية الحيوية السريرية، وفي تحديد العلاقات بين بيانات الجينوم غير المتجانسة، والمتغيرات البيئية والسجلات الصحية للمرضى. وفي هذا السياق، ومن خلال تحليل مجموع البيانات الضخمة المتعلقة بالصحة، تركزت جهود العلماء على كشف أنماط معرفية جديدة لتحسين سياسات الصحة العامة والبحوث السريرية والرعاية المقدمة للمرضى والتشخيص المبكر للأورام وإيجاد علاجات جديدة وبناء النماذج التنبؤية لتوقع حدوث الأمراض والأوبئة.
وعلى الرغم من الإمكانات التي تتيحها البيانات الضخمة في مجال البحث الطبي، فإنها تبقى محدودة مقارنة بتقدم البيانات الضخمة في العلوم الأساسية مثل المعلوماتية الحيوية. فعلى سبيل المثال، يوجد في المعهد الأوروبي للمعلوماتية الحيوية (واحد من أكبر مستودعات بيانات البيولوجيا)، أكثر من 55 بيتابايت من البيانات حول الجينات والبروتينات والجزيئات الصغيرة. وتركز المعلوماتية الحيوية على البحوث التحليلية لكمية كبيرة من المعلومات البيولوجية باستخدام الحواسيب، إذ يتم استخدام المعلوماتية الحيوية لتحليل سلاسل الحمض النووي وبيانات التعبيرات الجينية، وشبكات الجينات، والتعرف إلى التغيرات الجينومية الهيكلية والتنبؤ بالبنى البروتينية.
ويواجه الباحثون تحديات جديدة تتعلق بالتخزين، وإدارة وتحليل الكميات الهائلة من البيانات، والتي تتطلب تقنيات تحليلية قوية وجديدة لاستخراج المعلومات المفيدة و المساعدة على اتخاذ قرارات ذكية وفعالة.
تحليل البيانات الضخمة
لا تكمن أهمية البيانات الضخمة في إمكانية الوصول إليها وتجميعها وإدارتها فقط، وإنما في القدرة على فهمها وتحليلها واستخراج المعرفة منها، والتنبؤ بما سيحدث مستقبلا.
ويشير الباحثون إلى أن عملية تحليل البيانات تبدأ بالتعرف إلى البيانات الأصلية، التي قد تشمل مجال الرعاية الصحية والطب الحيوي والسجلات الطبية وعلم الجينوم والبيانات ذات الصلة، لتنتقل في الخطوة التالية إلى التنقيح وحذف البيانات الناقصة وتصحيح الأخطاء. كما يتم استخراج المزايا والتوفيق بين الأنماط، وذلك باستخدام مختلف التقنيات الحاسوبية. ويعقب ذلك المعالجة الإحصائية، إذ يتم استخدام التعلم الآلي وتقنيات الاستدلال الإحصائي التي تحتاج إلى البرمجيات المتخصصة، لاستخلاص الاستنتاجات من البيانات. والخطوة الأخيرة هي استخراج التوقعات.
وعموما، يتم تقسيم أدوات تحليل واستخراج المعلومات من البيانات الضخمة إلى أربع عمليات هي الوصف والتشخيص والتنبؤ والتوجيه (الشكل 3). مع الإشارة إلى أن العنصرين الأخيرين يمكن أن يكونا أكثر قيمة لأنهما يوجهان العمل في المستقبل.
> التحليلات الوصفية: التي تبدأ بتجميع البيانات الخام وتحديد نوعها وتصفيتها وتنقيتها من المعطيات المزعجة ووصفها وتحويلها إلى شيء يمكن فهمه وإدراكه. ومن ثم فهي تعطينا القدرة على تحديد الأحداث وتلخيصها وتوفير نظرة ثاقبة عن «ماذا حدث» في الماضي، وتقديم تقرير بشأنه بطريقة ميسرة. ومن ثم فإنها تعد الخطوة الأولى في تحويل البيانات الضخمة إلى رؤى قابلة للتنفيذ، وذلك باستعمال تقنيات التنقيب عن البيانات، ومن أهمها الخوارزميات الجينية، والشبكات العصبية، و شجرة القرار.
> التحليلات التشخيصية: تستخدم لاكتشاف أو لتحديد سبب حدوث شيء ما. ويتم ذلك باستعمال تحليل الانحدار لتقدير العلاقة بين المتغيرات، واستعمال التعمق بالتحليل للزيادة في مستوى التفصيل ولاكتشاف الأسباب، ويستعمل التنقيب العميق عن البيانات لاكتشاف علاقات الارتباط.
> التحليلات التنبؤية: تعتمد على تحديد الأنماط وتحليل السيناريوهات المحتملة لما قد يحدث في المستقبل. ويمكن التعرّف إلى الأنماط وتطبيق تقنية النمذجة الإحصائية والخوارزميات لإيجاد علاقات بين مجموعات البيانات المختلفة. كما يمكن استخدام طرق متنوعة من النماذج الإحصائية، وتقنيات التنقيب عن البيانات وتقنيات التعلم الآلي لتوقع الخطوات التي يمكن تجنبها أو اتباعها لتحسين الخدمات الطبية.
> التحليلات التوجيهية: تكشف ما ينبغي اتخاذه من إجراءات. وهذا النوع من التحليل هو الأكثر قيمة، إذ يؤدي دورا رئيسيا في عمليات
التخطيط الاستراتيجي، ونتائجه تصلح عادة كنموذج إرشادي وتوصيات للخطوات المستقبلية.
ويتبين من كل ما ذكر آنفا، أن لتزايد القدرات الحاسوبية وتطور الخوارزميات وتقنيات المعلوماتية الحيوية وقعا كبيرا في إمكانية الاستفادة من البيانات الضخمة وتطويعها لإنشاء أساليب جديدة لتشخيص وعلاج الأمراض وتحسين جودة الحياة.