نمونه کارهای انجام شده در متون دینی غیر اسلامی
در حوزه پردازش متون دینی و غیر اسلامی نیز تحقیقات فراوانی صورت گرفته است که از آن جمله میتوان به تحقیقی اشاره کرد (وو 2017) که طی آن با استفاده از دانشنامههای معتبر یک گراف دانش از مجموعه منابع متنی بودایی به زبان چینی ایجاد کرده است و بر روی آن به جستجوی معنایی عبارات پیچیده پرداخته است[1].
نمونه کارهای انجام شده در غیر متون دینی
در حوزه دستاوردهای رایانهای در غیر متون دینی و در راستای نیازهای پروژه میتوان به موارد زیر اشاره نمود:
تصحیح خودکار
در حوزه تصحیح خودکار متون ابزارهای بسیار متعدد و فراوانی ارائه شده است که به چند نمونه شاخص در ذیل اشاره میشود:
- غلط یاب فارسی ویراستیار مرکز تحقیقات کامپیوتری اسلامی (نور) که به صورت افزونه Word عمل میکند.
- غلط یاب انگلیسی نرم افزار word و نرم افزار آنلاین غلط یاب[2]
- غلط یاب «غلطاوي» در زبان عربی (نسخه آنلاین و آفلاین) که به صورت افزونه word عمل میکند.
تشخیص موجودیت نامدار[3]
نمونههای آنلاین و آماده بکار انگلیسی عبارتند از:
جدیدترین روشها با استفاده از یادگیری عمیق و بکارگیری شبکههای عصبی مصنوعی انجام میگیرد. از جمله اینها میتوان به تشخیص موجودیت نامدار در انگلیسی با استفاده از ترکیب مدل CNN و LSTM دوجهته اشاره نمود که به امتیاز f-measure در حدود 91 درصد دست یافته است (چیو و اریک 2016)[6].
در تحقیقی دیگر با بکارگیری ویژگیهای از پیش تعریف شده در crf و ترکیب آن با مدل یادگیری عمیق LSTM دوجهته به تشخیص موجودیت در چهار زبان انگلیسی، هلندی، آلمانی و اسپانیایی پرداخته شده است که در انگلیسی به معیار f-measure در حدود 90 درصد دست یافته است (یاداو و همکاران 2018)[7].
در زبان فارسی با ارائه یک پیکره بزرگ از برچسبگذاری موجودیتهای نامدار و با استفاده از ترکیب مدل CRF و LSTM دو جهته، به تشخیص موجودیت نامدار پرداخته شده است که به معیار f-measure حدود 84 درصد رسیده است (پوستچی 2018)[8].
اخیرا در یک تز تحقیقاتی دانشگاهی (رضا مرادی) که در آزمایشگاه دادهکاوی دکتر مینایی انجام شده است با استفاده از ترکیب مدل BERT و LSTM به تشخیص موجودیت نامدار پرداخته شده که معیار f-measure حدود 87 درصد حاصل شده است.
در زبان عربی نیز در پژوهشی به تشخیص موجودیت نامدار با استفاده از مدلهای یادگیری عمیق پرداخته شده است[9].
تجزیه وابستگی
در زبان انگلیسی، برنامههایی برای تشخیص ارتباط کلمات مختلف در یک جمله نوشته شده است که از جمله میتوان به ماژول AllenNLP[10]، ماژول Spacy[11] و ماژول Stanford [12] اشاره کرد.
در زبان فارسی نیز ماژول هضم [13] و در زبان عربی ماژول Stanford [14] و ماژول Farasa [15] وجود دارد.
تشخیص ضمایر هممرجع
در زبان انگلیسی نسخهی آنلاین huggingface[16] ضمایر هممرجع را تشخیص میدهد. در عربی، با استفاده از ویژگیهای صرفی کلمات و گرامر وابستگی به تشخیص ضمایر هم مرجع پرداخته شده که به معیار f-measure حدود 90 درصد رسیده است (بسیسو و همکاران 2016)[17].
در فارسی ابزار شاخصی در این حوزه وجود ندارد. اما در یک مقاله تحقیقاتی با روشهای مبتنی بر یادگیری ماشین به تشخیص ضمایر هم مرجع پرداخته شده که به f-measure با مقدار 75 درصد رسیده است (نوربخش و بهرامی 2018)[18].
تشخیص نویسنده
تشخیص نویسنده، یکی از موضوعات پردازش زبان طبیعی است که با افزایش تعداد نویسندگان دچار چالش بیشتری میشود. در انگلیسی ابزاری به صورت آنلاین ارائه شده که با داشتن یک متن از هر نویسنده، نویسنده متن جدید را از میان دو نفر تشخیص میدهد[19].
مقالهای تحقیقاتی در زبان انگلیسی ارائه شده است که با استفاده از شبکه های کانولوشنی یادگیری عمیق به تشخیص نویسنده پرداخته است که از میان 50 نویسنده با داشتن 1000 متن برای هر نویسنده، میتواند نویسنده متن را با دقت حدود 76 درصد درست تشخیص دهد (شرستا و همکاران 2017)[20].
در زمینه فارسی نیز پژوهشهایی صورت گرفته است. مثلا با استفاده از مدل تغییر یافته زبانی و بهره گیری از عبارات تک و دو گرمی در میان دو مجموعه داده شعر فارسی به تشخیص نویسنده پرداخته شده است (وزیریان و زاهدی 2016)[21].
تشخیص تناقض
در فارسی و عربی تقریبا هیچ کار شاخصی در این زمینه انجام نشده است و یکی از مناطق بکر تحقیقاتی در حوزه پردازش زبان طبیعی فارسی میباشد.
در انگلیسی با استفاده از مدل تغییر یافته جاسازی کلمات که از یک شبکه عصبی عمیق آموزش دیده است، به تشخیص تناقض میان هر جفت جمله پرداخته شده است و نویسنده ادعا نموده که دقت روش جدید در تشخیص میزان جملات متناقض در حدود 82 درصد میباشد (لویانگ و همکاران 2017)[22].
تشخیص نوع موجودیت (Entity typing)
در فارسی به صورت مستقیم به این مساله پرداخته نشده است، اما در فرایند طراحی یک سامانه پرسش و پاسخ در فارسی با استفاده از بردارهای واژگانی و فراوانی آنها به ردهبندی نوع پاسخ پرداخته شده است که به دقت حدود 72 درصد دست یافته است (رزاق نوری و همکاران 2018)[23].
[1] Wu, Tianxing, et al. "KG-Buddhism: The Chinese Knowledge Graph on Buddhism." Joint International Semantic Technology Conference. Springer, Cham, 2017.
[2] https://www.onlinecorrection.com/
[3] مراد از موجودیت نامدار، اشیاء واقعی در جهان است مانند افراد، مکانها، محصولات و ...
[4] http://textanalysisonline.com/spacy-named-entity-recognition-ner
[5] https://demo.allennlp.org/named-entity-recognition/MTEwMzM4OQ==
[6] Chiu, Jason PC, and Eric Nichols. "Named entity recognition with bidirectional LSTM-CNNs." Transactions of the Association for Computational Linguistics 4 (2016): 357-370.
[7] Yadav, Vikas, and Steven Bethard. "A survey on recent advances in named entity recognition from deep learning models." Proceedings of the 27th International Conference on Computational Linguistics. 2018.
[8] Poostchi, Hanieh, Ehsan Zare Borzeshi, and Massimo Piccardi. "BiLSTM-CRF for Persian Named-Entity Recognition ArmanPersoNERCorpus: the First Entity-Annotated Persian Dataset." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018). 2018.
[9] Gridach, Mourad. "Deep learning approach for arabic named entity recognition." International Conference on Intelligent Text Processing and Computational Linguistics. Springer, Cham, 2016.
[10] https://demo.allennlp.org/dependency-parsing/MTEwMzM5MA==
[11] https://explosion.ai/demos/displacy
[13] http://www.sobhe.ir/hazm/demo/
[14] http://nlp.stanford.edu:8080/parser/
[15] http://qatsdemo.cloudapp.net/farasa/demo.html
[16] https://huggingface.co/coref/
[17] Beseiso, Majdi, and Abdulkareem Al-Alwani. "A Coreference Resolution Approach using Morphological Features in Arabic." International Journal of Advanced Computer Science and Applications 7.10 (2016): 107-113.
[18] Nourbakhsh, Aria, and Mohammad Bahrani. "Persian Pronoun Resolution Using Data Driven Approaches. "International Conference on Information and Software Technologies. Springer, Cham, 2017.
[19] http://www.aicbt.com/authorship-attribution/online-software/
[20] Shrestha, Prasha, et al. "Convolutional neural networks for authorship attribution of short texts." Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers. 2017.
[21] Vazirian, Samane, and Morteza Zahedi. "A modified language modeling method for authorship attribution." 2016 Eighth International Conference on Information and Knowledge Technology (IKT). IEEE, 2016.
[22] Li, Luyang, Bing Qin, and Ting Liu. "Contradiction detection with contradiction-specific word embedding." Algorithms 10.2 (2017): 59.
[23] Razzaghnoori, Mohammad, Hedieh Sajedi, and Iman Khani Jazani. "Question classification in Persian using word vectors and frequencies." Cognitive Systems Research 47 (2018): 16-27.