نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشجوی دکتری علم اطلاعات و دانش شناسی، دانشگاه فردوسی مشهد، مشهد، ایران
2 دانشیار، گروه علم اطلاعات و دانش شناسی، دانشگاه فردوسی ، مشهد، ایران
چکیده
داده کاوی به مفهوم آشکارسازی الگوهای موجود در حجم انبوه داده هاست که در بسیاری از رشته ها به کار گرفته شده است. در رشته علم اطلاعات و دانش شناسی بهویژه در بازیابی اطلاعات نیز میتوان از آن بهره برد. در بازیابی اطلاعات ابتدا پارادایم نظام گرا و سپس پارادایم کاربرگرا مطرح شده است که در پارادایم دوم به نیاز اطلاعاتی توجه شده است. در پارادایم دوم، ورود پرسش های نامناسب از سوی کاربران، دلیل اصلی عدم بازیابی مدارک مرتبط تلقی می شود. ازاین رو، یکی از مباحث اصلی این پارادایم، پیشنهاد و بسط پرسش مناسب در نظام بازیابی اطلاعات است که میتوان از روش های داده کاوی برای آن استفاده کرد. چهار روش مهم برای پیشنهاد پرسش جهت تقویت نظام توصیه گر وجود دارد. قاعده سری زمانی یکی از این روش هاست که به فراوانی پرسش در واحد زمانی خاص می پردازد. یکی دیگر از روش ها، قانون همایندی است که به وابستگی و تداعی پرسش ها توجه دارد. در روش قانون هم ایندی همراه با فاصله لون اشتاین، افزون بر توجه به وابستگی و تداعی پرسش ها به ترتیب واژه های پرسش نیز توجه می شود. به هرحال، در هر سه روش یادشده، از فایل ثبت رخداد استفاده می شود؛ درحالیکه در نظریه احتمالاتی از واژه های مدارک جهت ترمیم شکاف واژگانی بین پرسش و مدارک استفاده می شود. درنهایت به نظر می رسد، به کارگیری روش های یادشده به ویژه روش احتمالی در پیشنهاد پرسش منجر به نتایج مناسب تری شود.
کلیدواژهها
عنوان مقاله [English]
Implicating of Data Mining Techniques to Suggesting Queries in Information Retrieval System
نویسندگان [English]
- Mahdi Zeynali Tazehkandi 1
- Mohsen Nowkarizi 2
1 Ph.D Student in Knowledge and Information Science, Ferdowsi University of Mashhad, Mashhad, Iran
2 Associate Professor, Knowledge and Information Science Department,, Ferdowsi University of Mashhad, Mashhad, Iran
چکیده [English]
Data mining detects patterns in the massive volume of data used in many disciplines. It can also be useful in our field, especially in information retrieval. In information retrieval, first the system-oriented paradigm and then the user-oriented paradigm have been introduced, the second paradigm being concerned with information needs. In the second paradigm, the inclusion of inappropriate queries is considered the main reason for not retrieving relevant documents. Therefore, one of the main topics of this paradigm is proposing and extending the appropriate query in the recommender system that can be used for data mining methods. There are four important methods to propose a query to strengthen the recommender system. The time series rule is one of these methods that deal with query frequency in a particular time unit. Another method is the association rule that addresses the dependency and association of queries. In addition to the dependence and association of queries, the order of query terms is also considered in the method of Association rule with Levenshtein distances. However, in all three of these methods, the log file is used, while in probabilistic theory, the document words are used to repair the lexical gap between the queries and the documents. Therefore, it seems that using probability theory to suggest the query yields better results.
کلیدواژهها [English]
- Association Rule with Levenshtein Distances
- Probability Theory Recommender Systems
- Time Series Rule