نمونه کارهای انجام شده در متون دینی غیر اسلامی

در حوزه پردازش متون دینی و غیر اسلامی نیز تحقیقات فراوانی صورت گرفته است که از آن جمله می‌توان به تحقیقی اشاره کرد (وو 2017) که طی آن با استفاده از دانشنامه‌های معتبر یک گراف دانش از مجموعه منابع متنی بودایی به زبان چینی ایجاد کرده است و بر روی آن به جستجوی معنایی عبارات پیچیده پرداخته است[1].

نمونه کارهای انجام شده در غیر متون دینی

در حوزه دستاوردهای رایانه‌ای در غیر متون دینی و در راستای نیازهای پروژه می‌توان به موارد زیر اشاره نمود:

 تصحیح خودکار

در حوزه تصحیح خودکار متون ابزارهای بسیار متعدد و فراوانی ارائه شده است که به چند نمونه شاخص در ذیل اشاره می‌شود:

تشخیص موجودیت نامدار[3]

نمونه‌های آنلاین و آماده بکار انگلیسی عبارتند از:

جدیدترین روش‌ها با استفاده از یادگیری عمیق و بکارگیری شبکه‌های عصبی مصنوعی انجام می‌گیرد. از جمله اینها می‌توان به تشخیص موجودیت نامدار در انگلیسی با استفاده از ترکیب مدل CNN و LSTM دوجهته اشاره نمود که به امتیاز f-measure در حدود 91 درصد دست یافته است (چیو و اریک 2016)[6].

در تحقیقی دیگر با بکارگیری ویژگی‌های از پیش تعریف شده در crf  و ترکیب آن با مدل یادگیری عمیق LSTM دوجهته به تشخیص موجودیت در چهار زبان انگلیسی، هلندی، آلمانی و اسپانیایی پرداخته شده است که در انگلیسی به معیار f-measure در حدود 90 درصد دست یافته است (یاداو و همکاران 2018)[7].

در زبان فارسی با ارائه یک پیکره بزرگ از برچسب‌گذاری موجودیت‌های نامدار و با استفاده از ترکیب مدل CRF و LSTM دو جهته، به تشخیص موجودیت نامدار پرداخته شده است که به معیار f-measure حدود 84 درصد رسیده است (پوستچی 2018)[8].

اخیرا در یک تز تحقیقاتی دانشگاهی (رضا مرادی) که در آزمایشگاه داده‌کاوی دکتر مینایی انجام شده است با استفاده از ترکیب مدل BERT و LSTM به تشخیص موجودیت نامدار پرداخته شده که معیار f-measure حدود 87 درصد حاصل شده است.

در زبان عربی نیز در پژوهشی به تشخیص موجودیت نامدار با استفاده از مدل‌های یادگیری عمیق پرداخته شده است[9].

 تجزیه وابستگی

در زبان انگلیسی، برنامههایی برای تشخیص ارتباط کلمات مختلف در یک جمله نوشته شده است که از جمله میتوان به ماژول AllenNLP[10]، ماژول Spacy[11] و ماژول Stanford [12] اشاره کرد.

در زبان فارسی نیز ماژول هضم [13] و در زبان عربی ماژول Stanford [14]  و ماژول Farasa [15] وجود دارد.

 تشخیص ضمایر هم‌مرجع

در زبان انگلیسی نسخه‌ی آنلاین huggingface[16] ضمایر هم‌مرجع را تشخیص می‌دهد. در عربی، با استفاده از ویژگی‌های صرفی کلمات و گرامر وابستگی به تشخیص ضمایر هم مرجع پرداخته شده که به معیار f-measure حدود 90 درصد رسیده است (بسیسو و همکاران 2016)[17].

در فارسی ابزار شاخصی در این حوزه وجود ندارد. اما در یک مقاله تحقیقاتی با روش‌های مبتنی بر یادگیری ماشین به تشخیص ضمایر هم مرجع پرداخته شده که به f-measure با مقدار 75 درصد رسیده است (نوربخش و بهرامی 2018)[18].

 تشخیص نویسنده

تشخیص نویسنده، یکی از موضوعات پردازش زبان طبیعی است که با افزایش تعداد نویسندگان دچار چالش بیشتری می‌شود. در انگلیسی ابزاری به صورت آنلاین ارائه شده که با داشتن یک متن از هر نویسنده، نویسنده متن جدید را از میان دو نفر تشخیص می‌دهد[19].

مقاله‌ای تحقیقاتی در زبان انگلیسی ارائه شده است که با استفاده از شبکه های کانولوشنی یادگیری عمیق به تشخیص نویسنده پرداخته است که از میان 50 نویسنده با داشتن 1000 متن برای هر نویسنده، می‌تواند نویسنده متن را با دقت حدود 76 درصد درست تشخیص دهد (شرستا و همکاران 2017)[20].

در زمینه فارسی نیز پژوهش‌هایی صورت گرفته است. مثلا با استفاده از مدل تغییر یافته زبانی و بهره گیری از عبارات تک و دو گرمی در میان دو مجموعه داده شعر فارسی به تشخیص نویسنده پرداخته شده است (وزیریان و زاهدی 2016)[21].

  تشخیص تناقض

در فارسی و عربی تقریبا هیچ کار شاخصی در این زمینه انجام نشده است و یکی از مناطق بکر تحقیقاتی در حوزه پردازش زبان طبیعی فارسی می‌باشد.

در انگلیسی با استفاده از مدل تغییر یافته جاسازی کلمات که از یک شبکه عصبی عمیق آموزش دیده است، به تشخیص تناقض میان هر جفت جمله پرداخته شده است و نویسنده ادعا نموده که دقت روش جدید در تشخیص میزان جملات متناقض در حدود 82 درصد می‌باشد (لویانگ و همکاران 2017)[22].

  تشخیص نوع موجودیت (Entity typing)

در فارسی به صورت مستقیم به این مساله پرداخته نشده است، اما در فرایند طراحی یک سامانه پرسش و پاسخ در فارسی با استفاده از بردارهای واژگانی و فراوانی آنها به رده‌بندی نوع پاسخ پرداخته شده است که به دقت حدود 72 درصد دست یافته‌ است (رزاق نوری و همکاران 2018)[23].

 

[1] Wu, Tianxing, et al. "KG-Buddhism: The Chinese Knowledge Graph on Buddhism." Joint International Semantic Technology Conference. Springer, Cham, 2017.

[2] https://www.onlinecorrection.com/

[3] مراد از موجودیت نامدار، اشیاء واقعی در جهان است مانند افراد، مکان‌ها، محصولات و ...

[4] http://textanalysisonline.com/spacy-named-entity-recognition-ner

[5] https://demo.allennlp.org/named-entity-recognition/MTEwMzM4OQ==

[6] Chiu, Jason PC, and Eric Nichols. "Named entity recognition with bidirectional LSTM-CNNs." Transactions of the Association for Computational Linguistics 4 (2016): 357-370.

[7] Yadav, Vikas, and Steven Bethard. "A survey on recent advances in named entity recognition from deep learning models." Proceedings of the 27th International Conference on Computational Linguistics. 2018.

[8] Poostchi, Hanieh, Ehsan Zare Borzeshi, and Massimo Piccardi. "BiLSTM-CRF for Persian Named-Entity Recognition ArmanPersoNERCorpus: the First Entity-Annotated Persian Dataset." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018). 2018.

[9] Gridach, Mourad. "Deep learning approach for arabic named entity recognition." International Conference on Intelligent Text Processing and Computational Linguistics. Springer, Cham, 2016.

[10] https://demo.allennlp.org/dependency-parsing/MTEwMzM5MA==

[11] https://explosion.ai/demos/displacy

[12] https://corenlp.run/

[13] http://www.sobhe.ir/hazm/demo/

[14] http://nlp.stanford.edu:8080/parser/

[15] http://qatsdemo.cloudapp.net/farasa/demo.html

[16] https://huggingface.co/coref/

[17] Beseiso, Majdi, and Abdulkareem Al-Alwani. "A Coreference Resolution Approach using Morphological Features in Arabic." International Journal of Advanced Computer Science and Applications 7.10 (2016): 107-113.‏

[18] Nourbakhsh, Aria, and Mohammad Bahrani. "Persian Pronoun Resolution Using Data Driven Approaches. "International Conference on Information and Software Technologies. Springer, Cham, 2017.‏

[19] http://www.aicbt.com/authorship-attribution/online-software/

[20] Shrestha, Prasha, et al. "Convolutional neural networks for authorship attribution of short texts." Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers. 2017.‏‏

[21] Vazirian, Samane, and Morteza Zahedi. "A modified language modeling method for authorship attribution." 2016 Eighth International Conference on Information and Knowledge Technology (IKT). IEEE, 2016.

[22] Li, Luyang, Bing Qin, and Ting Liu. "Contradiction detection with contradiction-specific word embedding." Algorithms 10.2 (2017): 59.‏

[23] Razzaghnoori, Mohammad, Hedieh Sajedi, and Iman Khani Jazani. "Question classification in Persian using word vectors and frequencies." Cognitive Systems Research 47 (2018): 16-27.