البيانات الضخمة مرحلة هامة من مراحل تطور نظم المعلومات والإتصالات، وهي تعبر في مفهومها المبسط عن كمية هائلة من البيانات المعقدة التي يفوق حجمها قدرة البرمجيات والآليات الحاسوبية التقليدية على تخزينها ومعالجتها وتوزيعها، الأمر الذي أدى إلى وضع حلول بديلة متطورة تمكن من التحكم في تدفقها والسيطرة عليها.
تمتلك تقنية Big Data إمكانية تحليل بيانات مواقع الإنترنت وأجهزة الإستشعار وبيانات شبكات التواصل الإجتماعي.حيث أن تحليل هذه البيانات يسمح بوجود ارتباطات بين مجموعة من البيانات المستقلة لكشف جوانب عديدة ومنها على سبيل المثال التنبؤ للإتجاهات التجارية للشركات ومُكافحة الجريمة فى المجال الأمني وغيرها. كما توفر هذه التنبؤات لصانعي القرار أدوات مبتكرة لفهم أفضل للظروف وبالتالي اتخاذ قرارات صحيحة تحقق الأهداف المطلوبة.
Big Data
قبل الحديث عنها نود تعريف وتوضيح مفهوم البيانات. يمكن القول أن البياانات عيارة عن الصورة الخام للمعلومات قبل عمليات الفرز والترتيب والمعالجة ولا يمكن الإستفادة منها بصورتها الأولية قبل المعالجة. تصنف البيانات (Data classification) الخام إلى ثلاثة أنواع أولا، بيانات مُهيكلة (Structured Data) وهى البيانات المنظمة في جداول أو قواعد بيانات(Data Base). ثانيا، بيانات غير مهيكلة (Unstructured Data) وتٌمثل النسبة الأكبر من البيانات. وهى البيانات التي يتم الحصول عليها يومياً من كتابات نصية وصور وفيديو ورسائل ونقرات على مواقع الإنترنت ثالثا، بيانات شبه مهيكلة(Semi-structured data) وتُعد نوعاً من البيانات المهيكلة إلا أن البيانات لا تكون في صورة جداول أو قواعد بيانات.
يمكننا الآن الحديث عن مفهوم البيانات الضخمة وهي عبارة عن مجموعة أو مجموعات من البيانات بمختلف تصانيفها لها خصائصهاالفريدة (مثل الحجم، السرعة، التنوع،التباين،صحةالبيانات) والتي لا يمكن مُعالجتها بكفاءة باستخدام التكنولوجيا الحالية والتقليدية لتحقيق الإستفادة منها.
خصائص البيانات الضخمة
لها ثلاث خصائص كما يلي:
- الحجم( Volume)
هو حجم البيانات المستخرجة من مصدر ما، وهو ما يحدد قيمة وإمكانيات البيانات لكي تُصنف من ضمن البيانات الضخمة. وبحلول العام 2024 سيحتوى الفضاء الإلكتروني على ما يقرب من 40.000 ميتابايت من البيانات الجاهزة للتحليل وإستخلاص المعلومات.
- التنوع(Variety)
يُقصد به تنوع البيانات المستخرجة، والتي تُساعد المستخدمين سواء كانوا باحثين أو مُحللين على إختيار البيانات المناسبة لمجال بحثهم وتتضمن بيانات مُهيكلة(Structured Data) في قواعد بيانات وبيانات غير مهيكلة(Un Structured Data) مثل: الصور ومقاطع وتسجيلات الصوت وأشرطة الفيديو والرسائل القصيرة وسجلات المكالمات وبيانات الخرائط (GPS)، وتتطلب وقتاً وجهداً لتهيئتها في شكل مناسب للتجهيز والتحليل.
- السرعة (Velocity)
يُقصد بها سرعة إنتاج وإستخراج البيانات إرسالها لتغطية الطلب عليها حيث تعتبر السرعة عنصراً حاسماً في اتخاذ القرار بناء على هذه البيانات. وهو الوقت الذي نستغرقه من لحظة وصول هذه البيانات إلى لحظة الخروج بالقرار بناء عليها.
مصادر البيانات الضخمة
يوجد العديد من مصادر البيانات الضخمة منها المصادر الناشئة عن إدارة أحدالبرامج سواء أكان برنامج حكومي أو غير حكومي. كالسجلات الطبية الإلكترونية وزيارات المستشفيات وسجلات التأمين والسجلات المصرفية وبنوك الطعام وغيرها. المصادر التجارية أو ذات الصلة بالمعاملات تعد مصدرا آخر كالبيانات الناشئة عن معاملات بين كيانين على سبيل المثال معاملات البطاقات الإئتمانية والمعاملات التي تجرى عن طريق الإنترنت بوسائل منها الأجهزة المحمولة.
كما أن هناك مصادر معتمدة على شبكات أجهزة الإستشعار وأجهزة التتبع فعلى سبيل المثال، التصوير بالأقمار الصناعية، وأجهزة استشعار الطرق، وأجهزة استشعار المناخ وتتبع البيانات المستمدة من الهواتف المحمولة والنظام العالمي لتحديدالمواقع وغيرها يمكن أن تكون أحد مصادر البيانات الضخمة. هناك نوع آخر من المصادر وهو المتعلق بسلوك المستخدم مثل مرات البحث على الإنترنت عن منتج أو خدمة ما أو أي نوع آخر من المعلومات، ومرات مشاهدة إحدى الصفحات على الإنترنت. وأخيرا، مصادرالبيانات المتعلقة بالآراء مثل التعليقات على وسائط التواصل الإجتماعي مثل فيسبوك وتويتر وغيرها.
تقنيات البيانات الضخمة
يوجد العديد من الأدوات والتقنيات التي تستخدم لتحليل البيانات الكبيرة مثل: Hadoop،Map Reduce ،HPCC إلاأن(Hadoop)يُعد من أشهر هذه الأدوات، و(Hadoop) هو برنامج أو منصة برمجية مفتوحة المصدر مكتوبة بلغة الجافا تستخدم لتخزين ومُعالجة البيانات الضخمة بشكل موزع أي أن تخزين هذه البيانات الضخمة تكون على عدة أجهزة ومن ثم توزع عملية المعالجة على هذه الأجهزة لتسريع نتيجةالمعالجة وتعود أو تستدعى كحزمة واحدة. تتكون الأدوات التي تتعامل مع البيانات الضخمةمن ثلاثة أجزاء رئيسية وهي: أدوات التنقيب عن البيانات( Data Mining) وأدوات التحليل(Data Analysis) وأخيراً أدوات عرض النتائج(Dashboard).
الأطراف فى منظومة البيانات الضخمة
لكى يتم تنظيم أي خدمة يجب تحديد الأطراف التى تتعامل مع هذه الخدمة وتحديد واجبات وحقوق كل طرف تتكون منظومة البيانات الضخمة من عدة جهات تتفاعل فى ما بينها ،هذه المنظومة مُكونة من موفر البيانات الضخمة ومُقدم خدمة البيانات الضخمة وعميل خدمة البيانات الضخمة ويمكن توضيح هذه الجهات كما يلي:
أولاً:موفر البيانات الضخمة
يعمل موفر البيانات الضخمة على توفير البيانات من مصادر مُختلفة إلى مُقدم الخدمة وتشمل أنشطة موفرى البيانات على سبيل المثال إنشاء البيانات وإنشاء المعلومات الوصفية(Meta data) التى تصف مصدر البيانات وإيجاد مصادر البيانات المفتوحة (open data) على الإنترنت وتوفير بيان الخدمات (Service catalogue) إلى مُقدم الخدمة عن البيانات القابلة للإستخدام.
ثانياً: مُقدم الخدمة
يقوم مُقدم الخدمة بتحليل البيانات الضخمة وتوفير البنية التحتية اللازمة لها وتشمل أنشطة مُقدم الخدمة على سبيل المثال البحث فى مصادر البيانات وجمع البيانات عن طريق الطلب المباشر من موفر البيانات أو البحث فى الإنترنت (Data Crawling) كما تشمل أنشطة مقدم الخدمة تخزين البيانات ودمجها وتوفير الأدوات لتحليلها ودعم إداراتها مثل خصوصية البيانات وأمن البيانات وملكية البيانات وغيرها.
ثالثاً: عميل الخدمة
وهو المستخدم النهائي لمنظومة البيانات الضخمة أو هو نظام يستخدم النتائج أو الخدمات التى يُقدمها مُقدم خدمة البيانات الضخمة كما يمكن للعميل أن يُنتج خدمات جديدة أو معرفة وذلك إعتماداً على نتائج تحليل البيانات الضخمة تشمل أنشطة العميل على سبيل المثال طلب خدمة البيانات الضخمة من مزود الخدمة وإستخدام مُخرجات خدمة البيانات الضخمة في النشاط الذي يرغبه ويتخصص فيه.
تطبيقات البيانات الضخمة
القطاع الحكومى والبيانات الضخمة (Big Data)
عندما يتعلق الأمر بإدارة البيانات، أغلب المنظمات الحكومية تواجه مشكلة وجود كميات هائلة من البيانات في أنظمة الكمبيوتر ومعظم هذة البيانات غير منظمة أو مُهيكلة (unstructured data) وهذا يعني أنها لا تناسب أي نموذج بيانات معرّف مسبقاً. لفهم الأنماط الموجودة في هذه البيانات يجب أن تطبق المنظمات الحكومية نماذج إحصائية تسعى لإلتقاط ومعالجة كميات هائلة من البيانات غير المهيكلة و تسمى هذه العملية بـالبيانات الضخمة.
أغلب المنظمات الحكومية لا تملك عدد كافي من الموظفين أو لا تملك القدرة الحسابية اللازمة لإدارة وتحليل جميع البيانات الخاصة بهم. ومع طبيعة البيانات المتغيرة وارتفاع حجمها أصبحت الإستعانة بأدوات الـبيانات الضخمة من خلال الحوسبة السحابية (Cloud Computing) أمراً ضرورياً. فأصبح بإمكان المختصين بتطوير الخدمات الحكومية رصد مدى رضا المواطنين عن الخدمات المقدَّمة لهم. وعلى ضوء النتائج المحللة يمكن استنتاج ما يلزم عمله للتطوير والتحسين. حيث أصبح مسح آراء الجمهور عن طريق الإستبيانات التقليدية مكلفاً وغير مجدٍ في كثير من الأحيان. وذلك نظراً لتنوع البيانات الديموغرافية وثقافات المتعاملين. إن من أكبر المصادر لتلك البيانات الضخمة هي البيانات المسجلة من خلال عمليات التعداد السكاني والتسجيل في قواعد البيانات الحكومية. حيث يمكن أن تستنتج الحكومات معلومات ثمينة جداً من خلال تحليل تلك البيانات المخزنة.
تحليل (Big Data)
أدى إستخدام أدوات التعلم عبر الإنترنت والبرامج القائمة على التفاعل بصورة متزايدة في مجال التعليم إلى زيادة حجم البيانات واختلاف نوعية البيانات الكبيرة التي يُمكن جمعها من بيئات التعلم. فهنا نجد بيانات كبيرة عن المتعلمين وخبرات التعلم لدى المتعلمين، كما نجد بيانات متعمقة داخل بيئات التعلم. وبيانات حول التفاعلات الإجتماعية في بيئات التعلم وبيانات مُفصلة عن أنشطة التعلم من نصوص ووسائط ومقاطع فيديو وغيرها. كما تختلف هذه البيانات في نوعيتها وعمقها بنسب متفاوتة.
يمكن الإستفادة من تحليل هذه الأنواع من البيانات الضخمة في التعليم لتوفير مجموعة مُتنوعة من الفرص والخيارات بهدف تحسين تعلم الطلاب من خلال التعلم التكيفي أو التعليم القائم على الكفاءة. مما ينتج عنه تعلم أفضل نتيجة لتشخيص أسرع وأكثر تعمقاً في بيانات حقيقية تراكمية لاحتياجات التعلم أو المتاعب التي تواجهه أثناء عملية التعلم. بما في ذلك تقييم المهارات مثل التفكير المنظم، والتعاون، وحل المشاكل في سياق عميق، وتقييم أصيل لمجال وموضوع المعرفة. بالإضافة لتحديد التدخلات المستهدفة لتحسين نجاح الطلاب وخفض التكاليف الإجمالية للطلاب والمؤسسات. واستخدام البيئات القائمة والمعلومات المعقدة في صنع القرارات وتحديدالسياسات ويمكن أن توفر هذه البيانات أدوات حديثة وفعالة لقياس أداء الطلاب للمهام التعليمية ويمكن أن تُساعد كذلك في تصميم بيئات تعلم تصميماً مُخصصاً وفق إحتياجات مُحددة للطلاب ويمكن أن تعطي تحليلاً واضحاً لردود الفعل الفردية والجماعية لمجموعة من القضايا التعليمية وغيرها من المميزات.
تحليل البيانات الضخمة لتحسين عملية صنع القرار
إن عملية اتخاذ القرارات تُعد محور العملية الإدارية وجوهرها وإن نجاح المؤسسة أوالقطاع الحكومي يتوقف إلى حد كبير على قدرة وكفاءة القيادة الإدارية على إتخاذ القرارات الإدارية المناسبة إن عملية صنع القرار تبدأ بتجميع البيانات ومُعالجتها واستخلاص المعلومات التي بناء عليها يتم اتخاذ القرار . حيث بدأت تعتمد العديد من الشركات الكبيرة والقطاعات الحكومية على سياسة تحليل البيانات الضخمة والمعقدة. والتي تحتاج إلى البرمجيات المتخصصة في مجال إدارة البيانات والتحليلات والتي لا يمكن مُعالجتها باستخدام أداة واحدة فقط. أو العمل على تطبيقات مُعالجة بيانات تقليدية. فمن المعروف أن جمع البيانات والمعلومات تُساعد على التوصيف الدقيق للمشكلة وتحليلها للوصول إلى نتائج دقيقة. لذلك كان لابد من إعتماد نظام إداري يشمل تحليل البيانات الضخمة والهائلة جداً.
يستخدم القطاع الحكومي والشركات الكبيرة نظام تحليل البيانات الضخمة لتحسين العمليات الداخلية، مثل إدارة المخاطر، إدارة علاقات العملاء، والخدمات اللوجستية. كما يستخدم لتحسين المنتجات والخدمات القائمة، وتطوير الخدمات والمنتجات الجديدة والإستفادة من المعلومات وتقديم العروض المناسبة للعملاء في الوقت المناسب.
المجال العسكرى
تتيح فرصاً عديدة للصناعة العسكرية، وخصوصاً أن تحليل البيانات الضخمة يسمح بالكشف عن دلالات تنفيذية يرتكز عليها صنّاع القرار . لتطوير مختلف الشؤون العسكرية، فتساعد البيانات الضخمة على تطوير قدرات الإستخبارات العسكرية . من خلال جمع البيانات من مصادر مختلفة وبناء منصة حاسوبية مترابطة تعزّز تبادل المعلومات بين العسكريين.
يُشكّل النظام الذي يتمتع بشبكة إتصال كبيرة بين الأشياء أداة مهمة لتوليد شبكة المعلومات في المجال العسكري. فيساعد على جمع وتبادل المعلومات بوتيرة أسرع و على تحليلها بكفاءة وفعالية. لقد عزز إنترنت الأشياء (Internet of Things) النظام العسكري في ساحات المعارك من خلال تبادل المعلومات وتحديد مواقع العدو على أرض المعركة وغيرها . بحيث بات يُشكل تحليل المعلومات عن العدو بشكل دقيق وبالوقت الفعلي إحدى الخطوات الأساسية في عملية صنع القرار العسكري. إذ تظهر تكنولوجيا البيانات الضخمة قدرة على تحليل هذه المعطيات بشكل صحيح، مايسهل عملية إتخاذ القرار من قبل القادة العسكريين.
المجال الإقتصادي
لقد أصبح بإمكان الشركات والمؤسسات والهيئات اليوم على إختلاف أنواعها تحليل حركة العملاء من شراء وبيع ونحوه بدقة أكبر . ليتمكنوا وفقاً لذلك من معرفة السلع الأكثر طلباً أو تلك الراكدة ويقترحوا على عملائهم سلع معينة . وفقاً لعمليات الشراء التي تتم كما أصبح لديهم القدرة على فهم سلوك العملاء بشكل أكثر دقة. وتحديد المميزين منهم ومن هم بحاجة لمساعدة أو لتحديد توجهاتهم أو مُراقبة أدائهم. هذا الأمر ليس فقط لمراكز البيع التقليدية بل يشمل المتاجر الإلكترونية على شبكة الإنترنت. وعلى نطاق أوسع فأصبح يتفاجأ مُستخدم شبكات التواصل الإجتماعي أو البريد الإلكتروني في أحيان كثيرة. بظهور إعلانات تجارية لسلع قام مسبقاً بالبحث عنها في تطبيقات أخرى.
بل أكثر من ذلك هناك بعض الخوارزميات التي تستخدم بيانات تحديد الموقع على جهاز الهاتف لاقتراح الإعلانات. ومن هنا نجد أن ذلك يحدث نتيجة لتحليل البيانات الضخمة الناتجة من هذه المواقع والإستفادة منها في التسويق . وذلك باستخدام كل جزء صغير من البيانات المتاحة عن المستخدمين لمعرفة ميولهم وتفضيلاتهم بغية عرض البضائع . بأمثل طريقة ممكنة تجلب لشركات التسوق الإلكتروني أعظم ربح ممكن. ولا تقوم بتحليل البيانات التي تحصل عليها من تصفح المستخدم للإنترنت وحسب. بل قد تتبع زيارته للأسواق الحقيقية من خلال جهاز تحديد المواقع المُثبت بجهازه. ربما يعتقد البعض أن هذا إختراق للخصوصية. لكن في حقيقة الأمر فإن الشركات التي تقوم بذلك قد حصنت نفسها من خلال إتفاقية الشروط التي يوقع عليها المستخدم . عند تسجيل الدخول إلى تطبيقات التواصل الإجتماعي كالفيسبوك وتويتر.
وقد دخلت عملية التجارة الإلكترونية في السنوات الأخيرة مستوى جديداً من التنافس. بظل الكم الهائل من بيانات المستخدمين التي توفرها شبكات التواصل الإجتماعي واستخدام الإنترنت. أصبح الشاغل الأول لعمالقة التجارة الإلكترونية هو كيفية البقاء في المنافسة. فمن ناحية، تحتاج الشركات للترويج لبضائعها وهذا يتطلب معرفة باحتياجات الزبائن. ومن ناحية أخرى تحتاج لأن تقدم بضائعها بأسعار تنافسية في نفس الوقت تضمن لها هامش ربح كبير.
المجال الطبى
تحول البشر شيئاً فشيئاً من طب التعامل مع الأمراض إلى طب يسعى للتنبؤ بالأمراض ومنعها. وتقديم العلاج الملائم لكل شخص بمساعدة كم هائل من المعلومات يجمعها هاتفه الذكي. ما يفتح الباب لعصر جديد من الطب تلعب فيه البيانات الصحية الضخمة وتحليلاتها دوراً بارزاً. أصبح بإمكان المستشفيات الحكومية والمراكز الطبية والأطباء الإستفادة من البيانات الضخمة في دراسة سلوكيات المرضى . عبر تحليل ملفاتهم الطبية والزيارات التي قاموا بها للعلاج والتقنيات القابلة للإرتداء مما قد يساعدهم على تقديم خدمات طبية أفضل.
يتيح تحليل البيانات الضخمة معالجة أوجه القصور في نظم تقديم الرعاية الصحية . التي تتزايد تكاليفها بفعل النمو السكاني وارتفاع متوسط الأعمار. كما تستفيد العديد من المستشفيات في مختلف أنحاء العالم من البيانات الضخمة . في تقليل وقت الإنتظار في أقسام الطوارئ وتتبع حركة المريض. وزيادة كفاءة الإدارة الطبية. كما تستخدم البيانات الضخمة في صناعة الأدوية وتوزيعها وبيعها. تجمع شركات تصنيع الأدوية والتأمين الصحي البيانات من الدول في أفريقيا وآسيا مثلا لاستخدامها في التنبؤ بظهور أمراض معينة. وزيادة مبيعاتها في مناطق معينة. إذ تعتمد سياسات التسعير وتوزيع الأدوية على نتائج تحليل هذه البيانات.