نوع مقاله : مقاله پژوهشی
نویسندگان
1 گروه علم اطلاعات و دانششناسی، دانشکده مدیریت، دانشگاه تهران، تهران، ایران
2 معاون معاونت اسناد مرکز اسناد انقلاب اسلامی.
3 گروه هوش مصنوعی و رباتیک، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران، ایران
چکیده
چکیده
سازماندهی اطلاعات در آرشیوهای دیجیتال، بهویژه آرشیوهای تاریخی مانند مرکز اسناد انقلاب اسلامی ایران، با چالشهایی مانند ناکارآمدی نظامهای سنتی بازیابی اطلاعات مواجه است. این مرکز، با بیش از ۴.۵ میلیون برگ سند، ۳۱ هزار ساعت تاریخ شفاهی، و میلیونها عنوان خبری و مقاله، نیاز به رویکردهای نوین مانند هستیشناسی دامنه و گراف دانش دارد تا دسترسی معنایی به موجودیتهای کلیدی را بهبود بخشد. هدف این پژوهش، مدلسازی هستیشناسی دامنه برای آرشیو دیجیتال این مرکز با رویکرد ترکیبی تحلیل متن و بازاستفاده از هستیشناسیهای موجود است. روش پژوهش آمیخته است: از تحلیل متن به شکل نیمهخودکار و خودکار برای استخراج موجودیتها، طراحی مدل بر اساس اصول هستیشناسی و اعتبارسنجی یافتهها با تکنیک گروه اسمی استفاده شده است. یافتهها شامل ۵۳۵ رده است که پس از اعتبارسنجی با معیارهای 1) منطق سلسلهمراتبی، 2) صحت تاریخی/فرهنگی، 3) همترازی و معادلسازی و 4) کاملبودن و سادگی، ۴۵۷ رده تأیید، ۷۰ رده اضافه شده، ۵۳ رده در سلسله مراتب جابجا و ۱۹ رده حذف شدند. این هستیشناسی مبنایی را برای گراف دانش فراهم میکند، بازیابی معنایی را ارتقا میدهد، و پایهای منطقی برای سیستمهای هوش مصنوعی در مدیریت اسناد تاریخی ایران است. این پژوهش خلاء طراحی هستیشناسی کاربردی در تاریخ معاصر ایران را پر کرده و قابل توسعه برای دامنههای مشابه است.
کلیدواژهها
موضوعات
عنوان مقاله [English]
Domain Ontology Modeling in the Digital Archive of the Islamic Revolution Document Center: A Hybrid Approach of Text Analysis and Ontology Reuse
نویسندگان [English]
- Nader Naghshineh 1
- Alireza Entehaei Saray 2
- Behrouz Minaei-Bidgoli 3
- Ali Shabani 1
1 Knowledge and Information Science Dept., Faculty of Management, University of Tehran, Tehran, Iran
2 Deputy Assistant of Archives, Islamic Revolution Document Center of Iran
3 Artificial Intelligence and Robotics Depart., Faculty of Computer Engineering, Iran University of Science and Technology, Tehran, Iran
چکیده [English]
Abstract
Organizing information in digital archives, particularly historical ones such as the Islamic Revolution Document Center of Iran, faces challenges like the inefficiency of traditional information retrieval systems. This center, with over 4.5 million document pages, 31 thousand hours of oral history, and millions of news titles and articles, requires innovative approaches such as domain ontology and knowledge graphs to improve semantic access to key entities. The aim of this research is to model a domain ontology for the digital archive of this center using a hybrid approach of text analysis and reuse of existing ontologies. The research method is mixed: semi-automatic and automatic text analysis for entity extraction, model design based on ontology principles, and validation of findings using the nominal group technique. The findings include 535 classes that, after validation with criteria of 1) hierarchical logic, 2) historical/cultural accuracy, 3) alignment and equivalence, and 4) completeness and simplicity, resulted in 457 classes confirmed, 70 classes added, 53 classes relocated in the hierarchy, and 19 classes removed. This ontology provides a foundation for a knowledge graph, enhances semantic retrieval, and serves as a logical basis for artificial intelligence systems in managing Iran's historical documents. This research fills the gap in designing practical ontologies for contemporary Iranian history and is extensible to similar domains.
کلیدواژهها [English]
- Domain ontology
- Knowledge graph
- Semantic information retrieval
- Semantic search
- Semantic network