[size=24]مشاكل تقنيات البحث
إن مفتاح النجاح في الحصول على نتائج بحث جيدة، تكمن في نوعية الاستفسارات، أو الأسئلة، أو العبارات أو الكلمات المفتاحية التي نقوم بإدخالها في محركات البحث. لكن المشكلة الأساسية هنا تكمن في أن الغالبية العظمى من المستخدمين لا يقومون عادة بإدخال الاستفسارات أو الكلمات المفتاحية الصحيحة، والتي تؤدي إلى الحصول على النتائج المطلوبة، وسنستعرض فيما يلي المشاكل الشائعة في عالم البحث عن المعلومات، والطرق التي يحاول بها الباحثون معالجة هذه المشكلات.
[عدل] عدم طرح الأسئلة الصحيحة
من الحقائق الغريبة التي يؤكدها خبراء المعلومات هي أن المستخدمين نادرا ما يقومون بطرح الأسئلة التي تعبر عما يريدونه فعلا. والسبب الرئيس في ذلك هو الافتقار إلى الفهم الصحيح للموضوع قيد البحث، وبالتالي عدم استخدام الكلمات المفتاحية الصحيحة، والتي تؤدي إلى تكوين استعلامات وأسئلة صحيحة. فالمشكلة الأساسية هنا إذا، هي مساعدة المستخدمين على طرح الأسئلة وتكوين الاستعلامات الصحيحة. ومن مظاهر هذه المشكلة أيضا هي صغر حجم الاستعلامات التي يكونها المستخدم عادة للاستفسار عن موضوع معين. فإذا كان مستخدم ما يريد معلومات عن "السفر" مثلا، فإنه يبدأ بإدخال كلمة عامة في محرك البحث، ومن ثم، واعتمادا على النتائج التي يحصل عليها، يقوم بتضييق نطاق بحثه إلى أن يصل إلى ما يريده. والسبب في أن العديد من مستخدمي إنترنت يستعملون هذا الأسلوب يكمن في أنهم لا يعرفون حقا الحجم المهول للمعلومات الموجودة في قواعد البيانات الخاصة بمحركات البحث، والتي تفوق عادة ما يمكن لأي إنسان التعامل معه.
[عدل] الموازنة بين الكم والنوع
عند التعامل مع تقنيات البحث فلا بد من الموازنة بين الكم والنوع، أو ما يدعوه الخبراء بالدقة والقدرة على الاسترجاع. وهي علاقة عكسية تماما، فكلما تم تضييق نطاق البحث سعيا عن نتائج أكثر دقة، كلما قل مقدار البيانات الذي يمكن استرجاعه. ولذلك فإن هناك حاجة لوجود محركات بحث تقدم دقة عالية دون التضحية بمقدار النتائج "الدقيقة" التي نسترجعها.
[عدل] غموض الكلمات
معظم الكلمات تحمل أكثر من معنى، ومعظم محركات البحث المستخدمة اليوم تقوم بمطابقة الكلمات وليس معانيها، ولذلك فإن نتائج عمليات البحث التي نحصل عليها، تحتوي غالبا على الكلمات المفتاحية الصحيحة، ولكنها ذات المعنى الخاطئ. فإذا جربت مثلا أن تبحث عن معنى كلمة "جافا" مثلا، وهي إحدى لغات البرمجة الشائعة الاستخدام، فإنك ستحصل الكثير من النتائج المتعلقة بالجفاف، أو باسم جزيرة إندونيسية تحمل الاسم نفسه، إضافة إلى معلومات عن لغة البرمجة.
[عدل] الأسماء وأنواعها
وماذا عن البحث في الأسماء، أي البحث عن معلومات عن الأشخاص والأماكن، وما إلى ذلك. خصوصا وأن الكتاب يغيرون عادة الطريقة التي يقومون بها بكتابة الأسماء. وإذا ما تحدثنا مثلا عن أسماء الشركات، فإنها تتغير باستمرار نتيجة عملية الاندماج والضم، مما يجعل عملية البحث صعبة. وقد يقول البعض أنه يمكن التغلب على هذه المشكلة نوعا ما باستخدام برمجيات الفهرسة، ولكن المشكلة هي أن المعلومات في عالمنا تتغير باستمرار مما يجعل الفهرسة اليدوية صعبة. وماذا عن الفهرسة الآلية؟ الإجابة هي أنه لا توجد بعد التقنية التي يمكنها القيام بذلك بدقة، بحيث يمكن التمييز مثلا بين مقال كامل عن شخص معين، ومقال آخر يذكر اسم الشخص بشكل عابر.
[عدل] المعالجة الطبيعية للغة
يجمع العاملون في مجال محركات البحث بأن الحل لكافة هذه المشاكل يكمن في تصميم محركات البحث، وبرمجيات البحث عموما، بحيث تستفيد من برمجيات المعالجة الطبيعية للغة Natural Language Processingعموما، والمعالجة الطبيعية للمعنى Natural Meaning Processing، والاستفادة من قواعد اللغة. النقطة الأساسية هنا هي أن اللغة عموما مبنية على أساس قواعد ذات أساس شبيه بالمعادلات الرياضية، كما أن عبارات اللغة وكلماتها تكون مبنية حسب هيكلية معينة, فلكل جملة مبتدأ وخبر، أو فعل وفاعل ومفعول به، كما أن الكلمات تأتي عادة من جذور وأصول. وهذه الهيكلية المبنية ضمن اللغة تتناسب وطبيعة عمل برمجيات الحاسوب، والتي تحتاج إلى هيكلية معينة تنفذ على أساسها عملياتها. أما المعالجة الطبيعية للمعنى فهي أكثر صعوبة، فكلمة مثل "راحة" يمكن لها أن تعني عدة أشياء، كالارتياح بعد التعب، أو الراحة الأبدية والتي تعني الموت، أو راحة اليد. ولهذا فإن برمجيات البحث يجب أن تتمكن من فهم الكلمة ضمن سياق النص، ودور الكلمة في هذا السياق. ولكن حتى هذا الأسلوب لا يفلح دوما في فهم المعنى. جرب أن تقرأ ديوانا شعريا جيدا، وستجد أن هنالك الكثير من الكلمات الصعبة، والتي قد يحاول البعض فهمها من السياق، ولكننا عندما نعجز عن ذلك فإننا نتجه إلى القاموس. وهذا أسلوب يمكن لبرمجيات الكمبيوتر اتباعه، أي الاعتماد على قاموس أو فهرس بالكلمات والعبارات الشائعة الاستخدام، والبحث في السياق. وفيما يلي بعض مفاهيم البحث التي تعتمد على المعالجة الطبيعية للغة؛
[عدل] دراسة الجُمل
تتميز الجُمل بأنها ذات هيكلية محددة وواضحة، مما يساعد في فهم المعنى بشكل سريع. ومن خلال تحديد نوع الجملة، يمكن لبرمجيات البحث أن تقوم بعملها بشكل أكثر دقة. ولعمل ذلك فإن هذه البرمجيات يجب أن تعتمد على كميات كبيرة من المصادر والمراجع اللغوية، كالمكانز، والتي تحتوي على عبارات وجمل ذات علاقات محددة مسبقا. وباستخدام هذه المكانز يمكن لبرمجيات البحث أن تفهم بشكل أفضل طبيعة العلاقة بين الكلمات المختلفة ومواقعها الصحيحة ضمن الجمل. ورغم الفائدة العظيمة للمكانز، فإن مدى فعاليتها يعتمد على تحديثها باستمرار، وإلا فإنها تفقد فاعليتها تدريجيا. وباستخدام المكانز، وتصريف الجمل وإعرابها يمكن الحصول على نظم بحث قوية يمكنها فهم عبارات البحث ومعاني الكلمات ضمن السياق بشكل أفضل.
[عدل] إزالة الالتباس: اختيار المعنى الصحيح
أوضحنا في النقطة أعلاه كيف يمكن للمكانز ونظم تصريف وإعراب الجمل أن تسهم بشكل أفضل في فهم المعنى من خلال السياق. وهذه التقنية مفيدة إذا كنا نبحث ضمن نص معين، ولكنها ليست مفيدة عند إدخال الاستفسارات والاستعلامات ضمن محركات البحث، حيث تتكون هذه عادة من عدد محدود من الكلمات، وبالتالي فإن حجم النص غير كاف لتحليل معنى الكلمات. والحل لهذه المشكلة واضح إلى درجة الإحراج ويتمثل في سؤال المستخدم عن المعنى الذي يقصده؛ فعندما يُدخل المستخدم كلمة "راحة" مثلا ضمن مربع الاستعلام، فإن محرك البحث يسأله عن المعنى المقصود، أو المعنى المراد البحث عنه، قبل الشروع بعملية البحث. وتوجد اليوم العديد من محركات البحث التي تستخدم قواميس مضمنة تقوم بتقديم قوائم بالمعاني المختلفة التي تمثلها الكلمة الواحدة قبل الشروع في عملية البحث. ومن هذه المحركات هناك LexiGuide من شركة LexiQuest، و Oingo، و Simplifind على موقع Simpli.com.
[عدل] التصنيف التلقائي
هذا الأسلوب هو الأقدم، حيث يتم تصنيف الوثائق حسب تصنيفات وفروع معينة، ومن ثم البحث بشكل منفصل ضمن كل تصنيف عن المعلومات المطلوبة. فمثلا، عند البحث عن كلمة "نواة" فإن بحثك قد يقودك إلى تصنيف يتعلق بعلوم الزراعة، وأنواع الحبوب، وما إلى ذلك، ولكنه في الوقت نفسه قد يقودك إلى تصنيف يقع ضمن علوم الفيزياء النووية. والحل هنا يكمن في تصنيف الوثائق المتعلقة بأنوية الحبوب والمزروعات في قسم الزراعة مثلا، والوثائق المتعلقة بأنوية الذرات في قسم الفيزياء الذرية. ولكن ماذا لو كانت لدينا وثيقة تتعلق بتأثير التجارب النووية على أنوية الحبوب والمزروعات؟ هل يجب عندها وضع الوثيقة في القسمين، أم ما هو الحل؟ وهنا تنشأ لدينا مشكلة المعنى المزدوج. ومن هنا تأتي أهمية التصنيف التلقائي، حيث يتم استخدام علوم النحو من تصريف وإعراب، واستخدام المكانز والقواميس، بحيث يتمكن النظام من "فهم" المواضيع الرئيسة في وثيقة ما. ويتم ذلك باستخدام أساليب إحصائية تقوم بدراسة تكرار الكلمات ضمن وثيقة ما، ومن ثم تحديد السياق، والذي يساعد في عملية البحث. وكمثال على ذلك لنأخذ كلمة، أو اسم مثل "فهد" أو "ليث" وهي أسماء عربية دارجة. ولنفترض أننا كتبنا موضوعا في مجلتنا عن شخص اسمه "فهد"، ولنفترض أن محرك بحث أراد تصنيف مقالنا هذا. في هذه الحال، وإذا كان محرك البحث يستخدم أسلوب التصنيف التلقائي، فإنه سيقوم من خلال دراسة النص ونوعية الكلمات الموجودة فيه وعلاقاتها وتكرارها، بتحديد أن المقال ينتمي إلى تصنيف علوم الكومبيوتر وإنترنت وليس الحيوانات والوحوش البرية. وتتبع برمجيات التصنيف التلقائي قواعد معينة يحددها المبرمجون، أو يمكن للآلة نفسها أن تتعلم ذاتيا كيف تقوم بتصنيف الكلمات. أو يمكن استخدام الأسلوبين، بحيث يتم تصنيف الوثائق التي تتبع نمطا معينا بشكل تلقائي، في حين يتم تحويل تلك التي يستحيل تصنيفها إلى عامل بشري كي يقوم بذلك.
[عدل] زيادة دقة الاستعلامات
من يستعمل محركات البحث باستمرار يعلم أنه من المحتوم الحصول على مئات الألوف من النتائج على الأقل عند البحث عن موضوع معين بشكل عام. أما عند تضييق نطاق البحث، فإننا نحصل على مقدار أقل من النتائج الأكثر دقة. ولزيادة دقة الاستعلامات، فإن بعض محركات البحث يقوم بتعديل الاستعلام، وذلك بتقديم معان مرادفة لكلمات البحث إلى المستخدم، لمساعدته على تحديد موضوع بحثه بدقة أكبر. ففي مثل هذه النظم، وإذا كان موضوع استعلامك هو "الرياضة" مثلا، فإن النظام يقدم لك عددا من البدائل التي تساعد في تحديد موضوع البحث مثل "التربية البدنية"، "اللياقة البدنية" أو "اللياقة" وغير ذلك من المرادفات التي تساعد على توجيه العملية بحيث يحصل المستخدم على أكبر كم من النتائج الدقيقة التي تعبّر عن موضوع البحث.
[عدل] ربط المفاهيم
إذا جربت اليوم أن تبحث عن العبارة "اسطوانات الليزر" (وهي العبارة العامية والقديمة للأقراص المدمجة) فإنك لن تحصل على الكثير من النتائج المفيدة من محركات البحث، حيث أن عبارة "الأقراص المدمجة" هي الكلمة الشائعة والمستخدمة في الغالبية العظمى من المطبوعات. ولهذا فإن العديد من محركات البحث هذه الأيام تستخدم أسلوب الربط بين المفاهيم، بحيث أنك إذا قمت بكتابة العبارة "أقراص الليزر" فإنك ستحصل على معلومات عن "الأقراص المدمجة". ويعتمد هذا الأسلوب على تحديد العلاقة بين الكلمات والعبارات في قاعدة البيانات بشكل مسبق، كما أنه مفيد عند البحث في وثائق متعددة اللغات، فالبحث عن كلمة "أقراص الليزر" يمكن أن يعطي نتائج لوثائق باللغة الإنجليزية عن Compact Disks أو CDs وما إلى ذلك، وهذا أسلوب مفيد جدا في عالم إنترنتي لم تعد فيه اللغة الإنجليزية هي السائدة.
[