مدل‌های بازیابی و الگوریتم‌های رتبه‌بندی

برای نظر دادن اولین باش!
15 مهر
مدل‌های بازیابی و الگوریتم‌های رتبه‌بندی

اولین گام جهت طراحی سیستم بازیابی اطلاعات این است که مدلی براي توصیف و تعیین مشابهت‌هـای موجود میان اطلاعاتی که در اختیار دارد با نیازهای اطلاعاتی کاربر تعریف کند. در ایـن بخـش مـدل یـا مدل‌های مورد استفاده‌ی موتور جستجوگر، براي بازیابی اطلاعات و رتبه‌بندی آنها بیان می‌شود.

یکی از نکات اصلی که براي کاربر اهمیت زیادی دارد نحوه‌ی رتبه‌بندی نتایج بدست آمده توسـط موتـور جستجوگر است. تفاوت در کارایی موتورهای جستجو ناشی از الگوریتم‌ها و مدل‌های مختلفی است که در این قسمت از موتور جستجو پیاده‌سازی شده‌اند. یکی دیگر از نکات این مدل‌هـا رفتـار متفـاوت آنهـا در زبان‌های مختلف و مجموعه اسناد مختلف است. به این معنـی کـه مـدل‌هـای بازیـابی اطلاعـات کـه در موتورهای جستجو به منظور یافتن مشابه‌ترین سند بـه پرسـش کـاربر از میـان اسـناد موجـود اسـتفاده می‌شود، باید براي زبان‌های متفاوت (انگلیسی، فارسی و …) پیاده‌سازی وارزیابی شوند تا بتوان برای زبان مقصد بهترین مدل را انتخاب و استفاده کرد.

حاصل تحقیقات گسترده در بازیابی اطلاعات، طراحی و معرفی مدل‌هـای مختلفـی بـراي سیسـتم‌هـای بازیابی اطلاعات است. برخی از مهمترین آنها، مدل فضاي برداری(Space-Vector) دودویـی (Binary) احتمالی-آماری، شبکه عصبی، فازی، gram-N و شبکه‌های استنتاجی هستند. این مدل‌هـا بـا توجـه بـه مجموعه داده‌های مورد استفاده و زبان مقصد کارایی متفاوتی دارند. مدل‌های فـوق را مـی‌تـوان در سـه کلاس زیر طبقه‌بندی کرد:

  • مدل‌های جبری:مانند مدل دودویی (Boolean)
  • مدل‌های تئوری مجموعه‌ای: مانند مدل فضای برداری (Space Vector)
  • مدل‌های احتمالی-آماری (Models Probabilistic)

این مدل‌ها با توجه به مجموعه داده‌های مورد استفاده و زبان مقصد کارایی متفاوتی دارند.

مدل دودویی

در مدل دودویی، نیاز اطلاعاتی کاربر به صورت عبارتی منطقی با عملگرهای AND ،OR و NOT بیـان می‌شود و هر سندی که این عبارت در مورد آن صحیح باشد بازیابی می‌شود. مثلاً اگر نیاز اطلاعـاتی بـه صورت Oil AND Iran بیان شود، تمامی اسنادی که کلمه‌ی Iran و Oil را با هم دارند به کـاربر نمـایش داده می‌شوند. متاسفانه در مدل دودویی سند یا باربط است یا نیست، و هیچ معیاری براي سنجش میزان ربط وجود ندارد. مثلا دو سندی که یکی تماما درباره ایران و نفت بحـث مـی‌کنـد، و دیگـری در مـورد اقتصاد جهانی صحبت می‌کند و فقط از نام ایران و نفت به عنوان مثالی در یک جمله استفاده کرده است، از نظر سیستم تفاوتی نیست. در صورتیکه در واقع سند اول بیشتر به نیاز کاربر مربوط است.

استراتژی جست‌وجوی دوارزشی، اسنادي را بازیابی می‌کند که برای پرس وجـو مقـدار True را داشـته باشند. این فرموله سازی زمانی قابل توجیه است که پرس وجو به صورت کلمات شاخص (کلمات کلیدي) و ترکیب این کلمات با استفاده از عملگرهای منطقی معمول مثل AND ,OR ,NOT نمایش داده شود.

مدل برداری

در مدل برداری، هر مستند را به صورت برداری از کلمات در نظر می‌گیریم و فضایی چند بعدی که ابعاد آنرا کلمات تشکیل می‌دهند ایجاد می‌کنیم. سپس هر سند در این فضا به صورت یک بردار نمایش داده می‌شود. مولفه‌های این بردار سند، در واقع وزن‌هایی هستند که نشان می‌دهند هر یک از کلمات چقـدر در متمایز کردن آن سند دخیل هستند. در مدل احتمالاتی ، به هر سند احتمالی اختصاص داده می‌شود که مربوط بودن آن مستند را به نیاز کاربر به صورت احتمال بین صفر و یک بیان می‌کند.

در مدل برداری، براي سنجش میزان ربط اسناد و نیاز اطلاعاتی کاربر، سیستم دقیقا به ماننـد قبـل نیـاز اطلاعاتی کاربر را هم به فضای چندبعدی از کلمات می‌برد و در نتیجه برای سنجش میزان شباهت میان این دو بردار می‌توان از زاویه‌ای که این دو بردار با هم مـی‌سـازند اسـتفاده کـرد. اسـنادی کـه بـا نیـاز اطلاعاتی کاربر دقیقا هم جهت هستند مسلما نسبت کلماتشان به همان نسـبت کلمـات نیـاز اطلاعـاتی است و در نتیجه مرتبط‌‌تر خواهند بود. برتری این مدل این است که به ما درجه‌ای از ربط را می‌دهد.

مدل فضای برداری پایه‌اي‌ترین مدل در سیستم‌های بازیابی اطلاعات است. در این مـدل ابتـدا سـند بـه برداری تبدیل می‌شود که حاوي کلمات مهـم مـتن سـند، بـه همـراه وزن هـر کلمـه بـر اسـاس میـزان تاثیرگذاری کلمه بر محتوی متن در مقایسه با سایر کلمات است. تهیه بردار بـرای هـر سـند بـر اسـاس تکنیکی به نام نمایه‌سازی صورت می‌گیرد. در نمایه‌سازی ابتدا کلمات عمومی از متن حذف می‌گردنـد و کلمات باقی مانده ریشه‌یابی می‌شوند. سپس بر اساس پارامترهای مختلفی ماننـد تعـداد تکـرار کلمـه در متن، تعداد تکرار کلمه در متن، تعداد تکرار کلمه در اسناد مجموعه و مولفه‌های نرمالسازی وزنی به هر کلمه نسبت داده می‌شود. همین فعالیت‌ها براي پرسش کاربر نیز تکرار می‌شود. به این ترتیب هر سند از مجموعه‌ای از کلمات به برداری تبدیل می‌شود که در فضای جدیدی به نام فضای بـرداری قـرار دارد. در این فضا که بسته به تعداد کلمات مجموعه یک فضای n بعدی است، بـردار هـر سـند ترسـیم مـی‌شـود. پرسش کاربر نیز بعد از اعمال فعالیت‌های نمایه‌سازی به برداری تبـدیل مـی‌شـود کـه در فضـای جدیـد ترسیم می‌گردد. در این فضا هر سندی که به پرسش کاربر نزدیکتر باشد سند مرتبط شناخته می‌شود و بازیابی می‌گردد. معیار نزدیکی در این فضا زاویه‌ای است که بردار پرسش با هـر یـک از بردارهـای سـند می‌سازد. این میزان نزدیکی، معمولا با رابطه زیر که به نام مشابهت کسینوسی شناخته می‌شود، محاسبه می‌گردد:

مدل احتمالاتی

در مدل احتمالاتی هم به ازای هر نیاز اطلاعاتی، تمامی اسناد بر اساس احتمال این که این سند بـا نیـاز اطلاعاتی مرتبط باشد، مرتب می‌شوند و لیست اسناد در نهایت به صورت درجه‌بندی شده (ماننـد مـدل برداري) به کاربر نمایش داده می‌شود به نحوی که اولین سندی که کاربر می‌بیند از همه بیشتر احتمال دارد که به نیاز او ربط داشته باشد. بعد از تعریف این مدل، سیستم اکنون آماده است که نیاز اطلاعاتی کاربر را دریافت کند. معمولا کاربران نیاز اطلاعاتی خود را در قالب چندین کلمه یا عبارات معمولی به سیستم بیان می‌کنند. سیستم سپس بر اساس مدلی که اطلاعات را در آن مدل کرده است، میزان ربط هر سند را با نیاز اطلاعاتی کاربر محاسـبه می‌کند و آن سندهایی را که از همه باربط‌تر تشخیص داده شده‌اند به عنوان خروجی باز می‌گرداند.

 

 

منابع: برگرفته از vatyar

دانشگاه علم و صنعت ایران و شورای عالی اطلاع رسانی. “زیرپروژه: مقدمه‌اي بر ذخیره و بازیابی اطلاعات متون زبان فارسی”. 1388

نظر دادن

از پر شدن تمامی موارد الزامی ستاره‌دار (*) اطمینان حاصل کنید. کد HTML مجاز نیست.

تهران ، خ کارگر شمالی ، کوچه اشراقی ، خیابان هئیت ، ساختمان گرد آفرید، پارک علم و فناوری دانشگاه تربیت مدرس تهران، پ 15 شماره تماس : 02166582371

درباره ما

امروزه بهره گیری از فناوری اطلاعات در امر یادگیری و یاد دهی یکی از ضرورت های انکارناپذیر است. کاربست فناوری در یادگیری و یاددهی در سطوح مختلف صورت می پذیرد. در آینده کسانی موفق خواهند بود که یاد بگیرند، چگونه یاد بگیرند. روند رشد فناوری اطلاعات و ارتباطات به عبارت دقیق تر فناوری های دانش کاربست آنها در فضاهای یادگیری را اجتناب ناپذیر نموده است. ادامه ..

آمار بازدید

امروز237
دیروز182
این هفته1840
این ماه4541
مجموع172674

14
آنلاین
شنبه, 30 شهریور 1398 23:36
توسعه یافته توسط مارال وب