مدل‌سازی هستی‌شناسی دامنه در آرشیو دیجیتال مرکز اسناد انقلاب اسلامی: رویکرد ترکیبی تحلیل متن و بازاستفاده از هستی‌شناسی‌ها

نقشینه, نادر; انتهائی سرای, علیرضا; مینایی بیدگلی, بهروز; شعبانی, علی

doi:10.22054/jks.2025.88985.1746

مقالات آماده انتشار

نوع مقاله : مقاله پژوهشی

نویسندگان

¹ گروه علم اطلاعات و دانش‌شناسی، دانشکده مدیریت، دانشگاه تهران، تهران، ایران

² معاون معاونت اسناد مرکز اسناد انقلاب اسلامی.

³ گروه هوش مصنوعی و رباتیک، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران، ایران

https://doi.org/10.22054/jks.2025.88985.1746

چکیده

چکیده
سازماندهی اطلاعات در آرشیوهای دیجیتال، به‌ویژه آرشیوهای تاریخی مانند مرکز اسناد انقلاب اسلامی ایران، با چالش‌هایی مانند ناکارآمدی نظام‌های سنتی بازیابی اطلاعات مواجه است. این مرکز، با بیش از ۴.۵ میلیون برگ سند، ۳۱ هزار ساعت تاریخ شفاهی، و میلیون‌ها عنوان خبری و مقاله، نیاز به رویکردهای نوین مانند هستی‌شناسی دامنه و گراف دانش دارد تا دسترسی معنایی به موجودیت‌های کلیدی را بهبود بخشد. هدف این پژوهش، مدل‌سازی هستی‌شناسی دامنه برای آرشیو دیجیتال این مرکز با رویکرد ترکیبی تحلیل متن و بازاستفاده از هستی‌شناسی‌های موجود است. روش پژوهش آمیخته است: از تحلیل متن به شکل نیمه‌خودکار و خودکار برای استخراج موجودیت‌ها، طراحی مدل بر اساس اصول هستی‌شناسی و اعتبارسنجی یافته‌ها با تکنیک گروه اسمی استفاده شده است. یافته‌ها شامل ۵۳۵ رده است که پس از اعتبارسنجی با معیارهای 1) منطق سلسله‌مراتبی، 2) صحت تاریخی/فرهنگی، 3) همترازی و معادل‌سازی و 4) کامل‌بودن و سادگی، ۴۵۷ رده تأیید، ۷۰ رده اضافه شده، ۵۳ رده در سلسله مراتب جابجا و ۱۹ رده حذف شدند. این هستی‌شناسی مبنایی را برای گراف دانش فراهم می‌کند، بازیابی معنایی را ارتقا می‌دهد، و پایه‌ای منطقی برای سیستم‌های هوش مصنوعی در مدیریت اسناد تاریخی ایران است. این پژوهش خلاء طراحی هستی‌شناسی کاربردی در تاریخ معاصر ایران را پر کرده و قابل توسعه برای دامنه‌های مشابه است.

کلیدواژه‌ها

موضوعات

وب معنایی و هستان‌نگاری (آنتولوژی)

عنوان مقاله [English]

Domain Ontology Modeling in the Digital Archive of the Islamic Revolution Document Center: A Hybrid Approach of Text Analysis and Ontology Reuse

نویسندگان [English]

Nader Naghshineh ¹
Alireza Entehaei Saray ²
Behrouz Minaei-Bidgoli ³
Ali Shabani ¹

¹ Knowledge and Information Science Dept., Faculty of Management, University of Tehran, Tehran, Iran

² Deputy Assistant of Archives, Islamic Revolution Document Center of Iran

³ Artificial Intelligence and Robotics Depart., Faculty of Computer Engineering, Iran University of Science and Technology, Tehran, Iran

چکیده [English]

Abstract
Organizing information in digital archives, particularly historical ones such as the Islamic Revolution Document Center of Iran, faces challenges like the inefficiency of traditional information retrieval systems. This center, with over 4.5 million document pages, 31 thousand hours of oral history, and millions of news titles and articles, requires innovative approaches such as domain ontology and knowledge graphs to improve semantic access to key entities. The aim of this research is to model a domain ontology for the digital archive of this center using a hybrid approach of text analysis and reuse of existing ontologies. The research method is mixed: semi-automatic and automatic text analysis for entity extraction, model design based on ontology principles, and validation of findings using the nominal group technique. The findings include 535 classes that, after validation with criteria of 1) hierarchical logic, 2) historical/cultural accuracy, 3) alignment and equivalence, and 4) completeness and simplicity, resulted in 457 classes confirmed, 70 classes added, 53 classes relocated in the hierarchy, and 19 classes removed. This ontology provides a foundation for a knowledge graph, enhances semantic retrieval, and serves as a logical basis for artificial intelligence systems in managing Iran's historical documents. This research fills the gap in designing practical ontologies for contemporary Iranian history and is extensible to similar domains.

کلیدواژه‌ها [English]

Domain ontology
Knowledge graph
Semantic information retrieval
Semantic search
Semantic network

فصلنامه بازیابی دانش و نظام‌های معنایی

مدل‌سازی هستی‌شناسی دامنه در آرشیو دیجیتال مرکز اسناد انقلاب اسلامی: رویکرد ترکیبی تحلیل متن و بازاستفاده از هستی‌شناسی‌ها

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 26 آذر 1404

مدل‌سازی هستی‌شناسی دامنه در آرشیو دیجیتال مرکز اسناد انقلاب اسلامی: رویکرد ترکیبی تحلیل متن و بازاستفاده از هستی‌شناسی‌ها

مقالات آماده انتشار، پذیرفته شده انتشار آنلاین از تاریخ 26 آذر 1404

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 26 آذر 1404