دستاوردهای تحقق یافته‌ی علوم رایانه‌ای در غیر پروژه‌ی نجف

دستاوردهای رایانه‌ای در حوزه علوم اسلامی که محقق شده است و مورد استفاده قرار گرفته است، عموماً به دو دسته‌ی پردازش قرآنی و متون روایی دسته‌بندی می‌شود. هم‌چنین در سایر کتب دینی و به طور عمومی در پردازش‌های متنی هوشمند تحقیقاتی صورت گرفته که در ذیل به آنها اشاره می‌گردد:

نمونه کارهای انجام شده در حوزه پردازش قرآن‌

در پردازش ماشینی در حوزه‌ی قرآن کریم، هم در لایه‌ی الفاظ، اقداماتی صورت گرفته و هم در لایه‌ی معنا:

 لایه لفظی

از جمله این کارها می‌توان به کارهای آماری و پردازشی روی حرکات، حروف و عبارات قرآنی مانند اعراب‌گذاری (گروه متن کاوی نور)[1] اشاره نمود. محاسبه واژه‌های هم تکرار و پرتکرار و جستجوی عبارات قرآنی (پژوهشکده اعجاز قرآن)[2] نمونه دیگری از پردازش ماشینی در لایه‌ی الفاظ است.

Kais dukes در دانشگاه لیدز به تحلیل صرفی و نحوی عبارات و جملات قرآنی مانند تحلیل گرامری و تجزیه وابستگی آنها پرداخته و پیکره‌ای از آن برای استفاده در ابزارهای کامپیوتری ایجاد کرده‌اند[3].

لایه معنایی

در یکی از تحقیقات (عبدالباقی شرف و اِریک اَتوِل) به یافتن خودکار آیات مشابه در قرآن بر اساس واژه، موضوع و شباهت‌های تفسیری پرداخته شده است[4].

دسته‌بندی خودکار آیات به رده‌های مختلف از قبیل مکی-مدنی و انذار-تبشیر بر اساس ویژگی‌های لغوی و معنایی یکی دیگر از تحقیقاتی است که مد نظر پژوهشگران است (تحقیقات و پایان‌نامه‌های داخل کشور و عبدالباقی شرف). در تحقیقی با بکارگیری پیکره‌ای که در آن مرجع ضمایر قرآنی مشخص شده است، باهم‌آیی مفاهیم قرآنی، محاسبه و بستری برای جستجوی مفاهیم قرآنی آماده شده است (عبدالباقی شرف و اِریک اَتوِل)[5].

استخراج و تولید هستان‌شناسی از مفاهیم قرآنی یکی از چالش برانگیزترین اقداماتی است که به صورت محدود به آن پرداخته شده است (kais dukes در دانشگاه لیدز[6] و شهاب رهنما برای حدود 30 مفهوم قرآنی[7]). یائوری در سال 2011 هستان‌شناسی دانشگاه لیدز را کامل‌تر نمود و از آن در استخراج روابط میان مفاهیم قرآنی بهره گرفت[8].

حکمت الله خان و دیگران در سال 2013 یک هستان‌شناسی از اسامی حیوانات مورد اشاره در قرآن ایجاد کردند و با استفاده از آن به جستجوی معنایی آیات قرآنی پرداختند[9].

یکی از تحقیقات دیگری که در حوزه معنایی قرآن صورت گرفته، بررسی امکان تولید فریم‌های گزاره‌ای عبارات قرآنی است که در آن یک فعل محور قرار داده می‌شود و تمام عوامل آن فعل، بر اساس ظرفیت و جایگاهشان به آن فعل متصل می‌گردند. (عبدالباقی شرف)[10]

استیری و همکاران در سال 1392 یک زیرساخت مبتنی بر وب معنایی برای آیات قرآن کریم ایجاد نمودند[11].

نمونه کارهای انجام شده در حوزه پردازش متون روایی

موسسه نور به دسته‌بندی خودکار متون فقهی در 9 باب فقهی از پیش تعریف شده پرداخته است[12]. همچنین تشخیص ماشینی روایات مشابه یکی دیگر از کارهایی که این موسسه ارائه نموده است. در راستای رده‌بندی احادیث نیز، تحقیق دیگری (جبرا 2010) به رده‌بندی احادیث اهل سنت در 13 باب موضوعی پرداخته است[13].

در پژوهشی (سعد و دیگران 2010) چارچوبی برای ذخیره و بازنمایی دانش اسلامی مبتنی بر هستان‌شناسی ارائه شده و سعی کرده‌اند متشابهات قرآن را با استفاده از آن توضیح دهد[14].

یکی از تحقیقاتی که در پردازش متون روایی به آن مکرر پرداخته شده است، استخراج خودکار نام راویان حدیث از روایت است. صالح بالقاسم و زکریا در سال 2017[15] با ترکیب روش‌های مبتنی بر قانون و معیارهای آماری به استخراج نام راویان پرداخته‌اند که امتیاز معیار f-measure را برای روش خود، 80 درصد اعلام کرده‌اند. در این راستا تشخیص موجودیت نامدار در مجموعه متون روایی (محمود 2017) یکی از تحقیقات دیگری است که انجام شده است[16].

هراگ در 2013 به ارائه روشی برای خوانش احادیث صحیح بخاری و ذخیره آن در قالب یک مجموعه داده ساخت یافته پرداخته است[17]. در سال 2017 الخطیب و همکاران یک هستان‌شناسی عربی از روایات با حدود 8500 هم‌نشین و روابط آنها شامل هم معنی، متضاد و ارجاع به کتاب منبع ایجاد کردند[18].

تشخیص خودکار حدیث قوی و ضعیف در روایات، پژوهش دیگری است که در زمینه متون روایی صورت گرفته است. برای مثال با استفاده از ویژگی‌های متوسط طول کلمات، بار معنایی کلمات استفاده شده (الوا 2018)[19] و استفاده از طبقه و جایگاه راوی (عزمی 2014)[20] تحقیقاتی برای تشخیص خودکار حدیث قوی و ضعیف صورت گرفته است. در این راستا و در تحقیق دیگری، صحت احادیث جمع آوری شده از وب با استفاده از مجموعه‌ی دادگان از پیش تعریف شده احادیث و انواع آن (شتناوی 2011) مورد بررسی قرار گرفته است[21].

ساخت درختواره راویان حدیث از متون روایات و ترجمه آنها به زبان دیگر (عزمی 2010[22] و الیاس [23]2016)  نقطه‌ی دیگری است که مورد توجه پژوهشگران است. در این راستا دو تحقیق دیگر صورت گرفته و یک هستان‌شناسی از روابط میان راویان، نسب آنها و ارتباط آنها با احادیث مختلف ایجاد کرده‌اند (بَرَکَه 2014[24] و بشارت [25]2016).

ایجاد هستان‌شناسی از متون روایی یکی از حوزه‌هایی است که تحقیقات مختلفی به آن پرداخته‌اند. از جمله می‌توان به تحقیقی اشاره نمود (السنسله 2017[26]) که در آن یک هستان‌شناسی از پیامبران و رسل، کتاب‌های آنها و تعالیم و زندگی آنها در قرآن و روایات ساخته شده است. یا در تحقیق دیگری روشی برای جستجوی معنایی متون روایی با استفاده از آنتولوژی ایجاد شده بر روی موضوع «زکات» ارائه شده است (المصری [27]2018).

در متون روایی به زبان مالزیایی دو تحقیق شاخص وجود دارد که یکی پیرامون استفاده از تحلیل موضوع برای پرس‌وجو در مستندات روایی به زبان مالزیایی پیرامون مفهوم «حلال» (هانوم و دیگران [28]2014) است و دیگری مستندات روایی مرتبط را با استفاده از بسط پرس‌وجوی کاربر توسط دانشنامه مالزیایی (رحمان 2010[29]) استخراج می‌کند.

در سال 2016 نجیب، پایگاهی از متون روایی ایجاد نمود که برای هر یک از روایت‌ها سلسله راویان، راوی اصلی، شماره کتاب و باب آن روایت در قالب فایل XML ارائه شده بود[30].

یکی از جدیدترین تحقیقاتی که در حوزه پردازش متون روایی انجام شده است، ارائه یک سامانه‌ی پرسش و پاسخ در حوزه احادیث با استفاده از دانش‌های زبانی موجود بر روی روایات می‌باشد (عبدی 2019[31]).

نمونه کارهای انجام شده در متون دینی غیر اسلامی

در حوزه پردازش متون دینی و غیر اسلامی نیز تحقیقات فراوانی صورت گرفته است که از آن جمله می‌توان به تحقیقی اشاره کرد (وو 2017) که طی آن با استفاده از دانشنامه‌های معتبر یک گراف دانش از مجموعه منابع متنی بودایی به زبان چینی ایجاد کرده است و بر روی آن به جستجوی معنایی عبارات پیچیده پرداخته است[32].

نمونه کارهای انجام شده در غیر متون دینی

در حوزه دستاوردهای رایانه‌ای در غیر متون دینی و در راستای نیازهای پروژه می‌توان به موارد زیر اشاره نمود:

تصحیح خودکار

در حوزه تصحیح خودکار متون ابزارهای بسیار متعدد و فراوانی ارائه شده است که به چند نمونه شاخص در ذیل اشاره می‌شود:

 تشخیص موجودیت نامدار[34]

نمونه‌های آنلاین و آماده بکار انگلیسی عبارتند از:

جدیدترین روش‌ها با استفاده از یادگیری عمیق و بکارگیری شبکه‌های عصبی مصنوعی انجام می‌گیرد. از جمله اینها می‌توان به تشخیص موجودیت نامدار در انگلیسی با استفاده از ترکیب مدل CNN و LSTM دوجهته اشاره نمود که به امتیاز f-measure در حدود 91 درصد دست یافته است (چیو و اریک 2016)[37].

در تحقیقی دیگر با بکارگیری ویژگی‌های از پیش تعریف شده در crf  و ترکیب آن با مدل یادگیری عمیق LSTM دوجهته به تشخیص موجودیت در چهار زبان انگلیسی، هلندی، آلمانی و اسپانیایی پرداخته شده است که در انگلیسی به معیار f-measure در حدود 90 درصد دست یافته است (یاداو و همکاران 2018)[38].

در زبان فارسی با ارائه یک پیکره بزرگ از برچسب‌گذاری موجودیت‌های نامدار و با استفاده از ترکیب مدل CRF و LSTM دو جهته، به تشخیص موجودیت نامدار پرداخته شده است که به معیار f-measure حدود 84 درصد رسیده است (پوستچی 2018)[39].

اخیرا در یک تز تحقیقاتی دانشگاهی (رضا مرادی) که در آزمایشگاه داده‌کاوی دکتر مینایی انجام شده است با استفاده از ترکیب مدل BERT و LSTM به تشخیص موجودیت نامدار پرداخته شده که معیار f-measure حدود 87 درصد حاصل شده است.

در زبان عربی نیز در پژوهشی به تشخیص موجودیت نامدار با استفاده از مدل‌های یادگیری عمیق پرداخته شده است[40].

 تجزیه وابستگی

در زبان انگلیسی، برنامههایی برای تشخیص ارتباط کلمات مختلف در یک جمله نوشته شده است که از جمله میتوان به ماژول AllenNLP[41]، ماژول Spacy[42] و ماژول Stanford [43] اشاره کرد.

در زبان فارسی نیز ماژول هضم [44] و در زبان عربی ماژول Stanford [45]  و ماژول Farasa [46] وجود دارد.

تشخیص ضمایر هم‌مرجع

در زبان انگلیسی نسخه‌ی آنلاین huggingface[47] ضمایر هم‌مرجع را تشخیص می‌دهد. در عربی، با استفاده از ویژگی‌های صرفی کلمات و گرامر وابستگی به تشخیص ضمایر هم مرجع پرداخته شده که به معیار f-measure حدود 90 درصد رسیده است (بسیسو و همکاران 2016)[48].

در فارسی ابزار شاخصی در این حوزه وجود ندارد. اما در یک مقاله تحقیقاتی با روش‌های مبتنی بر یادگیری ماشین به تشخیص ضمایر هم مرجع پرداخته شده که به f-measure با مقدار 75 درصد رسیده است (نوربخش و بهرامی 2018)[49].

تشخیص نویسنده

تشخیص نویسنده، یکی از موضوعات پردازش زبان طبیعی است که با افزایش تعداد نویسندگان دچار چالش بیشتری می‌شود. در انگلیسی ابزاری به صورت آنلاین ارائه شده که با داشتن یک متن از هر نویسنده، نویسنده متن جدید را از میان دو نفر تشخیص می‌دهد[50].

مقاله‌ای تحقیقاتی در زبان انگلیسی ارائه شده است که با استفاده از شبکه های کانولوشنی یادگیری عمیق به تشخیص نویسنده پرداخته است که از میان 50 نویسنده با داشتن 1000 متن برای هر نویسنده، می‌تواند نویسنده متن را با دقت حدود 76 درصد درست تشخیص دهد (شرستا و همکاران 2017)[51].

در زمینه فارسی نیز پژوهش‌هایی صورت گرفته است. مثلا با استفاده از مدل تغییر یافته زبانی و بهره گیری از عبارات تک و دو گرمی در میان دو مجموعه داده شعر فارسی به تشخیص نویسنده پرداخته شده است (وزیریان و زاهدی 2016)[52].

تشخیص تناقض

در فارسی و عربی تقریبا هیچ کار شاخصی در این زمینه انجام نشده است و یکی از مناطق بکر تحقیقاتی در حوزه پردازش زبان طبیعی فارسی می‌باشد.

در انگلیسی با استفاده از مدل تغییر یافته جاسازی کلمات که از یک شبکه عصبی عمیق آموزش دیده است، به تشخیص تناقض میان هر جفت جمله پرداخته شده است و نویسنده ادعا نموده که دقت روش جدید در تشخیص میزان جملات متناقض در حدود 82 درصد می‌باشد (لویانگ و همکاران 2017)[53].

تشخیص نوع موجودیت (Entity typing)

در فارسی به صورت مستقیم به این مساله پرداخته نشده است، اما در فرایند طراحی یک سامانه پرسش و پاسخ در فارسی با استفاده از بردارهای واژگانی و فراوانی آنها به رده‌بندی نوع پاسخ پرداخته شده است که به دقت حدود 72 درصد دست یافته‌ است (رزاق نوری و همکاران 2018)[54].

 

[1] http://labs.noornet.net/FA/Diacritization.aspx

[2] https://www.sbu.ac.ir/Res/quran/Pages/default.aspx

[3] Dukes, Kais, and Tim Buckwalter. "A dependency treebank of the Quran using traditional Arabic grammar." 2010 the 7th International Conference on Informatics and Systems (INFOS). IEEE, 2010.

[4] Sharaf, Abdul-Baquee M., and Eric Atwell. "QurSim: A corpus for evaluation of relatedness in short texts." LREC. 2012.

[5] http://www.textminingthequran.com/wiki/Machine_Learning_with_Weka, by Abdul-Baquee M. Sharaf, Surah Classification in Makki and Madani

[6] http://corpus.quran.com/ontology.jsp

[7] https://github.com/srahnama/Quran-ontology

[8] Yauri, Aliyu Rufai, et al. "Quranic-based concepts: Verse relations extraction using Manchester OWL syntax." 2012 International Conference on Information Retrieval & Knowledge Management. IEEE, 2012.

[9] Khan, Hikmat Ullah, et al. "Ontology based semantic search in Holy Quran." International Journal of Future Computer and Communication 2.6 (2013): 570.

[10] Abdul-Baquee, S., and E. S. Atwell. "Knowledge representation of the Quran through frame semantics: a corpus-based approach." Proceedings of the Fifth Corpus Linguistics Conference. University of Liverpool, 2009.

[11]  احمد استیری، محسن کاهانی، و هادی قائمی. (۱۳۹۲). اﯾﺠﺎد و اﻧﺘﺸﺎر زﯾﺮﺳﺎﺧﺖ وب ﻣﻌﻨﺎﯾﯽ ﺑﺮای ﻗﺮآن ﮐﺮﯾﻢ. ارائه شده در پنجمین کنفرانس فناوری اطلاعات و دانش، دانشگاه شیراز.

[12] http://labs.noornet.net/FA/TextClassifier.aspx

[13] Jbara, Khitam. "Knowledge discovery in Al-Hadith using text classification algorithm." Journal of American Science 6.11 (2010): 409-419.

[14] Saad, Saidah, et al. "A framework for Islamic knowledge via ontology representation." 2010 International Conference on Information Retrieval & Knowledge Management (CAMP). IEEE, 2010.

[15] Balgasem, Soad Saleh, and Lailatul Qadri Zakaria. "A hybrid method of rule-based approach and statistical measures for recognizing narrators name in hadith." 2017 6th International Conference on Electrical Engineering and Informatics (ICEEI). IEEE, 2017.

[16] Mahmood, Ahsan, Hikmat Ullah Khan, and Wahab Khan. "Query based information retrieval and knowledge extraction using Hadith datasets." 2017 13th International Conference on Emerging Technologies (ICET). IEEE, 2017.

[17] Harrag, Fouzi. "Text mining approach for knowledge extraction in Sahîh Al-Bukhari." Computers in Human Behavior 30 (2014): 558-566.

[18] Alkhatib, M., Monem, A. A., & Shaalan, K. (2017). A Rich Arabic WordNet Resource for Al-Hadith Al-Shareef. Procedia Computer Science117, 101-110.

[19] Elewa, A. (2018). Authorship verification of disputed Hadiths in Sahih al-Bukhari and Muslim. Digital Scholarship in the Humanities34(2), 261-276.

[20] Azmi, Aqil M., and Amjad M. AlOfaidly. "A novel method to automatically pass hukm on Hadith." Proceedings of the 5th International Conference on Arabic Language Processing (CITALA’14). 2014.

[21] Shatnawi, Mohammed Q., Qusai Q. Abuein, and Omar Darwish. "Verification hadith correctness in islamic web pages using information retrieval techniques." Proceedings of International Conference on Information & Communication Systems. 2011.

[22] Azmi, Aqil, and Nawaf Bin Badia. "iTree-Automating the construction of the narration tree of Hadiths (Prophetic Traditions)." Proceedings of the 6th International Conference on Natural Language Processing and Knowledge Engineering (NLPKE-2010). IEEE, 2010.

[23] Alias, N., Rahman, N. A., Ismail, N. K., Nor, Z. M., & Alias, M. N. (2016, August). Graph-based text representation for Malay translated hadith text. In 2016 Third International Conference on Information Retrieval and Knowledge Management (CAMP) (pp. 60-66). IEEE.

[24] Baraka, Rebhi S., and Y. Dalloul. "Building Hadith ontology to support the authenticity of Isnad." Building Hadith ontology to support the authenticity of Isnad 2.1 (2014).

[25] Basharat, Amna, et al. "Semantic Hadith: Leveraging Linked Data Opportunities for Islamic Knowledge. " LDOW@ WWW. 2016.

[26] Al-Sanasleh, H. A., & Hammo, B. H. (2017, October). Building domain ontology: Experiences in developing the prophetic ontology form Quran and hadith. In 2017 International Conference on New Trends in Computing Sciences (ICTCS) (pp. 223-228). IEEE.

[27] El Massry, Ahmed Jammal. "? An Ontology-based Approach to Support Semantic Search in Hadith (Zakat Domain)." An Ontology-based Approach to Support Semantic Search in Hadith (Zakat Domain) (2018).

[28] Hanum, H. M., Bakar, Z. A., Rahman, N. A., Rosli, M. M., & Musa, N. (2014). Using topic analysis for querying halal information on Malay documents. Procedia-Social and Behavioral Sciences121, 214-222.

[29] Rahman, Nurazzah Abd, Zainab Abu Bakar, and Tengku Mohd Tengku Sembok. "Query expansion using thesaurus in improving Malay Hadith retrieval system." 2010 International Symposium on Information Technology. Vol. 3. IEEE, 2010.

[30] Najeeb, M. M. "XML database for hadith and narrators." American Journal of Applied Sciences 13.1 (2016): 55-63.

[31] Abdi, Asad, et al. "A Question Answering System in Hadith using Linguistic Knowledge." Computer Speech & Language (2019): 101023.

[32] Wu, Tianxing, et al. "KG-Buddhism: The Chinese Knowledge Graph on Buddhism." Joint International Semantic Technology Conference. Springer, Cham, 2017.

[33] https://www.onlinecorrection.com/

[34] مراد از موجودیت نامدار، اشیاء واقعی در جهان است مانند افراد، مکان‌ها، محصولات و ...

[35] http://textanalysisonline.com/spacy-named-entity-recognition-ner

[36] https://demo.allennlp.org/named-entity-recognition/MTEwMzM4OQ==

[37] Chiu, Jason PC, and Eric Nichols. "Named entity recognition with bidirectional LSTM-CNNs." Transactions of the Association for Computational Linguistics 4 (2016): 357-370.

[38] Yadav, Vikas, and Steven Bethard. "A survey on recent advances in named entity recognition from deep learning models." Proceedings of the 27th International Conference on Computational Linguistics. 2018.

[39] Poostchi, Hanieh, Ehsan Zare Borzeshi, and Massimo Piccardi. "BiLSTM-CRF for Persian Named-Entity Recognition ArmanPersoNERCorpus: the First Entity-Annotated Persian Dataset." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018). 2018.

[40] Gridach, Mourad. "Deep learning approach for arabic named entity recognition." International Conference on Intelligent Text Processing and Computational Linguistics. Springer, Cham, 2016.

[41] https://demo.allennlp.org/dependency-parsing/MTEwMzM5MA==

[42] https://explosion.ai/demos/displacy

[43] https://corenlp.run/

[44] http://www.sobhe.ir/hazm/demo/

[45] http://nlp.stanford.edu:8080/parser/

[46] http://qatsdemo.cloudapp.net/farasa/demo.html

[47] https://huggingface.co/coref/

[48] Beseiso, Majdi, and Abdulkareem Al-Alwani. "A Coreference Resolution Approach using Morphological Features in Arabic." International Journal of Advanced Computer Science and Applications 7.10 (2016): 107-113.‏

[49] Nourbakhsh, Aria, and Mohammad Bahrani. "Persian Pronoun Resolution Using Data Driven Approaches. "International Conference on Information and Software Technologies. Springer, Cham, 2017.‏

[50] http://www.aicbt.com/authorship-attribution/online-software/

[51] Shrestha, Prasha, et al. "Convolutional neural networks for authorship attribution of short texts." Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers. 2017.‏‏

[52] Vazirian, Samane, and Morteza Zahedi. "A modified language modeling method for authorship attribution." 2016 Eighth International Conference on Information and Knowledge Technology (IKT). IEEE, 2016.

[53] Li, Luyang, Bing Qin, and Ting Liu. "Contradiction detection with contradiction-specific word embedding." Algorithms 10.2 (2017): 59.‏

[54] Razzaghnoori, Mohammad, Hedieh Sajedi, and Iman Khani Jazani. "Question classification in Persian using word vectors and frequencies." Cognitive Systems Research 47 (2018): 16-27.