نوع مقاله : مقاله پژوهشی
نویسندگان
1 گروه مدیریت فناوری اطلاعات، دانشکده مدیریت، واحد تهران مرکزی، دانشگاه آزاد اسلامی، تهران، ایران
2 گروه مدیریت صنعتی، دانشکده مدیریت، واحد تهران مرکزی، دانشگاه آزاد اسلامی، تهران، ایران
چکیده
امروزه داده ها به عنوان یکی از دارایی های ارزشمند سازمان ها و صنایع مختلف، نقش مهمی را در توسعه و پیشرفت کسب و کارها ایفا می کنند. در واقع هر سازمانی برای جمع آوری داده های خود از منابع مختلفی استفاده می کند که یکی از این منابع بستر وب می باشد که در آن روزانه داده های زیادی توسط کاربران مختلف و یا حتی ربات ها در سراسر جهان تولید و منتشر می شود. بررسی، تحقیق، مطالعه و تحلیل چنین داده هایی، می تواند اطلاعات و در نهایت دانش مفیدی را برای سازمان فراهم نمود. به همین منظور طی دهه های گذشته ابزارهای مختلفی توسعه یافته اند که به برداشت اطلاعات از بستر وب کمک شایانی نموده اند که از جمله آنها می توان به کتابخانه های ریکوئست، سلنیوم، اسکرپی، سوپ زیبا و .. در زبان برنامه نویسی پایتون اشاره نمود. با این حال، هر یک از این کتابخانه ها با چالش هایی مواجه هستند. ما در این مقاله با مطالعه کتابخانه سلنیوم و با توجه به وجود چالش های متعدد در آن، راه حلی را برای مدیریت زمان و بهبود چالش نامتقارن بودن آن ارائه نموده ایم. آزمایشات ما نشان می دهد که استفاده از راه حل پیشنهادی، دقت اطلاعات برداشت شده از بستر وب را افزایش و در نتیجه چالش نامتقارن بودن را بهبود می دهد و همچنین زمان برداشت اطلاعات از بستر وب را نیز کاهش می دهد.
کلیدواژهها
موضوعات
عنوان مقاله [English]
A mechanism to manage time and increase data accuracy when using the Selenium library
نویسندگان [English]
- Farnaz Taghizadeh Kourayem 1
- Mohammadreza Kabaranzad Ghadim 2
- Seyed Abdollah Amin Mousavi 1
1 Department of Information Technology Management, Faculty of Management, Central Tehran Branch, Islamic Azad University, Tehran, Iran
2 Department of industrial Management, Faculty of Management, Central Tehran Branch, Islamic Azad University, Tehran, Iran
چکیده [English]
Today, data, as one of the valuable assets of various organizations and industries, plays an important role in the development and progress of businesses. In fact, every organization uses different sources to collect its data, one of which is the web platform, where a lot of data is produced and published by different users or even robots all over the world every day. Examining, researching, studying and analyzing such data can provide useful information and knowledge for the organization. For this purpose, during the past decades, various tools have been developed that have greatly helped in extracting information from the web platform, among which we can mention Request, Selenium, Scrapy, Beautiful Soup, etc. libraries in the Python programming language. However, each of these libraries faces challenges. In this article, by studying the Selenium library and considering the existence of many challenges in it, we have presented a solution for time management and improving the challenge of its Asynchronous. Our experiments show that the use of the proposed solution increases the accuracy of the information retrieved from the web platform and thus improves the challenge of Asynchronous and also reduces the time to retrieve information from the web platform.
کلیدواژهها [English]
- Web Scraping
- Selenium library
- Asynchronous
- data accuracy
- data retrieval time