نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری علم اطلاعات و دانش شناسی، گرایش مدیریت دانش، دانشگاه تربیت مدرس.

2 استادیار گروه علم اطلاعات و دانش شناسی دانشگاه تربیت مدرس

10.22054/jks.2021.59944.1425

چکیده

منابع با سرعت بسیار زیادی در حال رشد و انتشار هستند و در این میان سهم منابع دیجیتال و وبی بسیار مشهود است. به منظور سازماندهی این منابع، تلاش‌هایی برای رده‌بندی خودکار صورت گرفته که غالبا از الگوریتم‌های آماری و یادگیری ماشینی استفاده می‌کنند. همچنین در برخی منابع، استفاده از رده‌بندی‌های کتابخانه‌ای نیز توصیه شده است. اصلی‌ترین چالشی که در این زمینه وجود دارد آن است که رده‌بندی، فرآیندی انتزاعی و نیازمند تفکر است و تکنیک‌های ماشینی و هوش مصنوعی هنوز نتوانسته‌اند به طور کامل جایگزین ذهن انسان شوند. در این مقاله ضمن بیان اهمیت رده‌بندی خودکار به مفاهیم یادگیری ماشینی و تکنیک‌ها و الگوریتم‌های پرکاربرد در خوشه‌بندی و رده‌بندی مانند کا- نزدیکترین همسایه، مدل بیز، شبکه‌های عصبی مصنوعی، یادگیری عمیق، و طبقه‌بندی‌های ترکیبی پرداخته شد. همچنین مراحل رده‌بندی خودکار صفحات وب و تکنیک‌های مورد استفاده در هر مرحله مورد اشاره قرار گرفت. رسیدن به درک روشن‌تری از موضوع رده‌بندی خودکار، امکان هم‌زبانی با متخصصان حوزه هوش مصنوعی و کامپیوتر را فراهم آورده و زمینه‌ساز پژوهش‌های میان‌رشته‌ای خواهد بود.

کلیدواژه‌ها

عنوان مقاله [English]

An overview of Automatic Text Classification

نویسندگان [English]

  • Reza Dehkhodaie 1
  • Atefeh Sharif 2

1 PhD student in Knowledge& Information Science, Knowledge Management, Tarbiat Modares University, Tehran, Iran

2 Assistant Professor of knowledge and information science, Management & Economics, Tarbiat Modares University, Tehran, Iran

چکیده [English]

Nowadays, various online resources are growing and disseminating rapidly. In order to organize these resources, attempts have been made to use automatic classification, which often use statistical algorithms and machine learning. Rrecently, attention has been drawn to the use of library classifications. The main challenge here is that classification is an abstract, thought-provoking process, and machine techniques and artificial intelligence have not yet been able to completely replace the human mind. In this paper, we provide an overview of the importance of automatic classification, machine learning and practical algorithms and techniques of clustering and classification like K- nearest neighbor, Bayesian models, artificial neural networks, deep learning, and hybrid classifications. Also, the steps of automatic classification of web pages and the techniques used in each step were mentioned. Achieving a clearer understanding of the automatic classification will enable LIS experts to communication with the experts in the field of artificial intelligence and computers. This could pave the way for interdisciplinary researches.

کلیدواژه‌ها [English]

  • Classification
  • automatic text classification
  • Machine Learning
  • web page Classification
  • library classification