نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری، گروه علم اطلاعات و دانش شناسی، گرایش مدیریت دانش، دانشگاه تربیت مدرس، تهران، ایران

2 استادیار، گروه علم اطلاعات و دانش شناسی ،دانشگاه تربیت مدرس، تهران، ایران

چکیده

منابع با سرعت بسیار زیادی در حال رشد و انتشار هستند و در این میان سهم منابع دیجیتال و وبی بسیار مشهود است. به منظور سازماندهی این منابع، تلاش‌هایی برای رده‌بندی خودکار صورت گرفته که غالبا از الگوریتم‌های آماری و یادگیری ماشینی استفاده می‌کنند. همچنین در برخی منابع، استفاده از رده‌بندی‌های کتابخانه‌ای نیز توصیه شده است. اصلی‌ترین چالشی که در این زمینه وجود دارد آن است که رده‌بندی، فرآیندی انتزاعی و نیازمند تفکر است و تکنیک‌های ماشینی و هوش مصنوعی هنوز نتوانسته‌اند به طور کامل جایگزین ذهن انسان شوند. در این مقاله ضمن بیان اهمیت رده‌بندی خودکار به مفاهیم یادگیری ماشینی و تکنیک‌ها و الگوریتم‌های پرکاربرد در خوشه‌بندی و رده‌بندی مانند کا- نزدیکترین همسایه، مدل بیز، شبکه‌های عصبی مصنوعی، یادگیری عمیق، و طبقه‌بندی‌های ترکیبی پرداخته شد. همچنین مراحل رده‌بندی خودکار صفحات وب و تکنیک‌های مورد استفاده در هر مرحله مورد اشاره قرار گرفت. رسیدن به درک روشن‌تری از موضوع رده‌بندی خودکار، امکان هم‌زبانی با متخصصان حوزه هوش مصنوعی و کامپیوتر را فراهم آورده و زمینه‌ساز پژوهش‌های میان‌رشته‌ای خواهد بود.

کلیدواژه‌ها

عنوان مقاله [English]

An Overview of Automatic Text Classification

نویسندگان [English]

  • Reza Dehkhodaie 1
  • Atefeh Sharif 2

1 PhD student in Knowledge and Information Science, Knowledge Management, Tarbiat Modares University, Tehran, Iran

2 Assistant Professor, Department of Information Science and Epistemology, Tarbiat Modares University, Tehran, Iran

چکیده [English]

Nowadays, various online resources are growing and disseminating rapidly. In order to organize these resources, attempts have been made to use automatic classification, which often uses statistical algorithms and machine learning. Recently, attention has been drawn to the use of library classifications. The main challenge here is that classification is an abstract, thought-provoking process, and machine techniques and artificial intelligence have not yet been able to completely replace the human mind. In this paper, we provide an overview of the importance of automatic classification, machine learning, and practical algorithms and techniques of clustering and classification like K-nearest neighbor, Bayesian models, artificial neural networks, deep learning, and hybrid classifications. Also, the steps of automatic classification of web pages and the techniques used in each step were mentioned. Achieving a clearer understanding of automatic classification will enable LIS experts to communicate with experts in the field of artificial intelligence and computers. This could pave the way for interdisciplinary research.

کلیدواژه‌ها [English]

  • Automatic Text Classification
  • Classification
  • Library Classification
  • Machine Learning
  • Web Page Classification
اسماعیل‌پور، رضیه. (1386). رویکردها و چالش‌های رده‌بندی خودکار منابع اطلاعاتی در محیط جدید. کتابداری و اطلاع‌رسانی، 10(2)، 91-106.
اسماعیلی، مهدی. (1391). مفاهیم و تکنیک­های دادهکاوی. بازیابی شده در 20/09/1399 از https://aghazeh.com//
باغبانی، شهناز. (1396). تکنیک‌ها و روش‌های یادگیری ماشین روی کلان داده.کنفرانس ملی فناوری‌های نوین در مهندسی برق و کامپیوتر، اصفهان.
برومند، فیروزه. (1381). رده‌بندی کتابخانه­ای. دایره‌المعارف کتابداری و اطلاع‌رسانی. تهران: کتابخانه ملی جمهوری اسلامی ایران.
تیم پژوهش راهبرد. (1400). طبقه‌بندی در داده‌کاوی. بازیابی شده در 24/03/1400 از https://raahbord.com/classification-in-data-mining/.
حصارکی، الهه. (1399). یادگیری ماشینی (Machine Learning) چیست؟ بازیابی شده در 24/ 03/1400 از https://b.fdrs.ir/pd.
هان، ژیاوی؛ کمبر، میشلین و پی، ژان. (1391).  مفاهیم و تکنیک‌های داده‌کاوی، ترجمه مهدی اسماعیلی. تهران: نیاز دانش.
Choi, B., & Yao, Z. (2005). Web page classification. In Foundations and Advances in Data Mining, 221-274. Springer, Berlin, Heidelberg.
Dalal, M. K., & Zaveri, M. A. (2011). Automatic text classification: a technical review. International Journal of Computer Applications28(2), 37-40.
Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American society for information science41(6), 391-407.
Eito-Brun, R. (2014). Knowledge dissemination patterns in the information retrieval industry: A case study for automatic classification techniques. World Patent Information39, 50-57.
Golub, K., Hagelbäck, J., & Ardö, A. (2018). Automatic classification using DDC on the Swedish Union Catalogue. In 18th European Networked Knowledge Organization Systems Workshop (NKOS 2018), Porto, Portugal, September 13, 2018, 4-16. CEUR-WS. org.
Ikonomakis, M., Kotsiantis, S., & Tampakas, V. (2005). Text classification using machine learning techniques. WSEAS transactions on computers4(8), 966-974.
Joorabchi, A., & Mahdi, A. E. (2011). An unsupervised approach to automatic classification of scientific literature utilizing bibliographic metadata. Journal of Information Science37(5), 499-514.
Lassri, S, Benlahmar, H, Tragha, A. (2019). Machine Learning for Web Page Classification: A Survey. International Journal of Information Science and Technology3(5), 38-50.
Maw, M., Balakrishnan, V., Rana, O., & Ravana, S. D. (2020). TRENDS AND PATTERNS OF TEXT CLASSIFICATION TECHNIQUES: A SYSTEMATIC MAPPING STUDY. Malaysian Journal of Computer Science33(2), 102-117.
Qi, X., & Davison, B. D. (2009). Web page classification: Features and algorithms. ACM computing surveys (CSUR)41(2), 1-31.‏
Sebastiani, F. (1999). A tutorial on automated text categorisation. In Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, 7-35. Buenos Aires, AR.
Selvakuberan, K., Indradevi, M., & Rajaram, R. (2008). Combined Feature Selection and classification–A novel approach for the categorization of web pages. Journal of Information and Computing Science3(2), 83-89.
Stamou, S., Ntoulas, A., Krikos, V., Kokosis, P., & Christodoulakis, D. (2006). January). Classifying web data in directory structures. In Asia-Pacific Web Conference, 238-249. Springer, Berlin, Heidelberg.
Baghbani, Shahnaz. (2016). Techniques and methods of machine learning on big data, National Conference of New Technologies in Electrical and Computer Engineering, Isfahan. [In Persian].
Boroumand, Firouzeh. Library Classification. (2002).. Encyclopedia of librarianship and information. Tehran: National Library of the Islamic Republic of Iran. [In Persian].
Esmaili, Mehdi. (2011). Concepts and techniques of data mining. Retrieved on 20/09/2013 from https://aghazeh.com// [In Persian].
Esmailpour, Razieh. (2007). Approaches and challenges of automatic classification of information sources in the new environment. Library and Information Science, 10(2), 91-106. [In Persian].
Han, Jiawei; Kember, Micheline and Pi, Jean. (2011). Concepts and techniques of data mining, translated by Mehdi Esmaili. Tehran: Niaz-e Danesh. [In Persian].
Hesaraki, Elaheh. (2019). What is machine learning? Retrieved on 24/03/1400 from https://b.fdrs.ir/pd. [In Persian].
Rahbord Research Team. (2021). Classification in data mining. Retrieved 03/24/1400 from https://raahbord.com/classification-in-data-mining/. [In Persian].