Academia.edu no longer supports Internet Explorer.
To browse Academia.edu and the wider internet faster and more securely, please take a few seconds to upgrade your browser.
2013, Engineering Journal: Science and Innovation
Дано описание основных идей декларативного языка XLog, предназначенного для разработки систем интеллектуальной обработки Internet-информации. Приведены синтаксис и семантика основных конструкций языка, краткое описание архитектуры интерпретатора, а также примеры.
This article considers the opportunities offered by the markup language XML and XML-based technologies for the analysis of the Stenographic Transcripts of State Duma meetings in the Russian Empire during the early 20th century. The authors define the basic types of tags required to implement the study, and the article shows the importance of custom tags to study the models of parliamentary activity, the issues, and their dependence on the social and cultural characteristics of deputies.
Keldysh Institute Preprints
О р д е н а Л е н и н а ИНСТИТУТ ПРИКЛАДНОЙ МАТЕМАТИКИ имени М.В.Келдыша Р о с с и й с к о й а к а д е м и и н а у к Е.Л. Китаев, Р.Ю. Скорнякова Скрейпинг «на лету» внешних веб-ресурсов, управляемый разметкой HTML-страницы Москва-2019 Китаев Е.Л., Скорнякова Р.Ю. Скрейпинг «на лету» внешних веб-ресурсов, управляемый разметкой HTML-страницы В работе изложен подход к отображению на веб-страницах данных из кросс-доменных ресурсов с использованием REST API и описан созданный на основе этого подхода инструмент, позволяющий извлекать и показывать на веб-странице метаданные размещенных в интернете html-документов, pdf-файлов и документов Word, а также микроданные и данные в формате JSON-LD. Инструмент включает в себя REST API на веб-сервере IIS и скрипты на языке JavaScript. Приведены примеры использования этого инструмента для создания списка организаций с меняющимися атрибутами, веб-страницы с текущими ценами на один и тот же товар в разных интернет-магазинах, списка научных статей. Созданный REST API допускает кросс-доменный доступ (CORS) и может быть использован при запросах из веб-страниц любых доменов.
TEKTRIKA - Jurnal Penelitian dan Pengembangan Telekomunikasi, Kendali, Komputer, Elektrik, dan Elektronika, 2016
Salah satu kekuatan XML (Extensible Markup Languange) adalah pada fleksibilitasnya dalam menyatakan beragam jenis informasi dari beragam sumber. Untuk mengoptimalkan memanfaatkan kemampuan XML, diperlukan mekanisme yang memungkinkan ekstraksi, seleksi, integrasi, dan transformasi dari informasi yang disimpan dalam bentuk XML. Kemampuan dalam melakukan query pada sumber data XML menjadi semakin penting seiring dengan semakin populernya XML, dimana akan semakin banyak informasi yang akan disimpan, dipertukarkan, dan disediakan dalam bentuk tersebut. XQuery [2] adalah suatu bahasa query untuk XML yang dikembangkan oleh World Wide Web Consortium (W3C). Bahasa ini diharapkan dapat menjadi bahasa query standar untuk XML. Penelitian ini bertujuan membuat suatu mesin query bernama XQEngine yang mampu memproses dan mengeksekusi bahasa XQuery. Tidak semua fitur bahasa XQuery akan didukung. Ada beberapa bagian dari bahasa XQuery yang tidak diimplementasikan. Ada pula bagian yang diimplementasikan dengan mengalami penyesuaian. Walaupun XQEngine tidak mendukung semua fitur bahasa XQuery, namun dari uji analisa kasus penggunaan, dapat dilihat bahwa XQEngine mampu menangani jenis-jenis query yang esensial. XQEngine dibangun menggunakan C++Builder® dengan platform Windows™. Versi awal dibangun pada platform Linux dengan bahasa pemrograman Java™.
Problems of engineer-pedagogical education
, кандидат педагогічних наук, старший науковий співробітник відділу створення та використання інтелектуальних мережних інструментів Національного центру «Мала академія наук України» МОН України і НАН України, вул. Дегтярівська,
NSU Vestnik. Series: Linguistics and Intercultural Communication, 2018
TXM platform provides a wide range of corpus analysis tools including correspondence analysis, clustering, lexical table construction, and parametrized subcorpus selection. The default structural unit of analysis for TXM is a token. The only TXM extension available by default is TreeTagger which performs automated morphological analysis and lemmatization during the corpus import process. However, it is possible to supply each token with a number of features enabling a more advanced text analysis. In this work we present a number of tools developed for even a more extensive, complex and flexible corpus analysis with TXM relying both on the tools previously developed by our team and on publicly available software libraries. We focus in particular on a stemming technique that uses a word structural pattern method and on noun phrase recognition that together make it possible to perform more sophisticated and powerful queries and analyses of the corpus not limited to word forms. The stru...
Exponenta Pro #1, 2004
УДК 621.3
Naučnyj servis v seti internet, 2018
Математический институт им. В.А. Стеклова Российской академии наук Аннотация. Традиционной формой представления полного текста научной статьи в электронной форме является PDF файл, который является полной копией печатной версии. Несколько лет назад у западных издателей появился устойчивый тренд на представление полных текстов научных публикаций в формате HTML. Версия научной статьи в формате HTML содержит ту же информацию, что и PDF файл, но при этом уже не является полной копией ее печатной версии и может предоставлять читателям расширенный функционал, недоступный в PDF: браузер иллюстраций, возможность экспорта иллюстраций и таблиц в PowerPoint, линки со списка литературы на библиографические базы данных. В данной статье приводятся примеры и обсуждаются преимущества и недостатки HTML версий научных публикаций. Ключевые слова: форматы представления научной статьи, сайт издателя научных журналов, расширенный функционал HTML версии научной статьи.
ТЕНДЕНЦИИ РАЗВИТИЯ НАУКИ И ОБРАЗОВАНИЯ, 2017
2020
The proposed research is devoted to the introduction of a modern ontological approach in the activities of library organizations. It has been revealed that an electronic catalogue in the modern sense is not a simple list of publications available in the book depository located on a digital medium. Actually, while saying “electronic catalogue”, we understand a rather complex information system of knowledge management which is serviced by appropriate software, has certain protocols for interacting with users and maintenance personnel, uses a specific access interface, information retrieval system, technology for delivering results of data requests to a user, etc. The material presented in the research suggests that the ontological approach can be used to unify the construction of electronic catalogues. Such unification is ensured by a combination of existing databases with arrays of unstructured and poorly structured information, through semantic annotation (the creation of metadata)....
Computer Research and Modeling, 2012
Рассматривается задача автоматизации коррекции документов в формате L A T E X. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.
Динамика структуры указателей к стенографическим отчетам Государственной Думы начала XX в.: анализ корпуса текстов на основе разметки XML, 2018
Предметом исследования являются личные алфавитные указатели к стенографическим отчетам заседаний Государственной Думы начала XX в. Значение личных алфавитных указателей к стенографическим отчетам состоит в том, что их содержание в максимально структурированном виде отражает деятельность каждого депутата в Думе, что позволяет оценить деятельность парламентариев в количественном и качественном измерении. В статье прослежено изменение подходов к публикации информации, посвященной личным характеристикам и деятельности парламентариев, рассмотрена динамика структуры и содержания источника. В основе исследовательской методологии – анализ корпуса исторических текстов на основе технологии XML-разметки. Для решения задач исследования была специально разработана и применена схема XML-разметки текстов указателей, в структуре которой были предусмотрены теги для описания основных параметров источника – метаданных источника, личных характеристик депутатов и видов деятельности депутатов в ходе сессий I-IV созывов российского парламента. Анализ тегов разметки позволил представить степень подробности описания видов деятельности депутатов, а также изменения в структуре представленных данных, выявить постоянно отображаемую в источнике информацию о депутатах и сведения, которые варьировались в указателях разных сессий. Результаты данного исследования позволяют оценить информационный потенциал источника в его динамике, в перспективе восполнить неполноту данных сведениями из стенограмм, а также проанализировать вложенность тегов для классификации депутатов по характеристикам деятельности.
Вестник Пермского университета. Математика. Механика. Информатика
Unified application issues of ontological engineering methods and tools for text data processing automation in 2 problems classes solving are considered. The first class is the relational database applications construction automation based on the necessary facts extracting directly from unstructured text documents collections in natural language. The second class is the text data processing automation in artificial languages in the program code verifying process for database applications. The information systems designing and developing problems, same as program code verifying problems, are complex for non-professional programmers. The text data processing problem solving automation is also relevant for professional programmers, because it significantly reduces the database applications development time. The ontologically controlled solution concept is proposed for these problems. An unified approach for problems solution and the tools demos implementation are described.
Стаття присвячена багатоаспектному дослідженню бібліографічного покажчика ЮНЕСКО «Іndex Translationum». Висвітлено історію створення та еволюцію покажчика, його кількісні та якісні характеристики. Проаналізовано переваги та недоліки бази даних «Іndex Translationum», її рейтингові статистичні показники. Розглянуто питання участі України в проекті ЮНЕСКО «Іndex Translationum». Ключові слова: переклад, документний потік, документний потік перекладів, бібліографічний покажчик, база даних. The article is devoted to comprehensive study of bibliographical index of UNESCO «Index Translationum». The history and evolution of the index, its quantitative and qualitative characteristics are highlighted. It is analyzed the advantages and shortcomings, the rating statistics of database «Index Translationum». The question of the participation of Ukraine in UNESCO project «Index Translationum» is examined.
InterCarto. InterGIS, 2020
Modern natural language processing technologies allow you to work with texts without being a specialist in linguistics. The use of popular data processing platforms for the development and use of linguistic models provides an opportunity to implement them in popular geographic information systems. This feature allows you to significantly expand the functionality and improve the accuracy of standard geocoding functions. The article provides a comparison of the most popular methods and software implemented on their basis, using the example of solving the problem of extracting geographical names from plain text. This option is an extended version of the geocoding operation, since the result also includes the coordinates of the point features of interest, but there is no need to separately extract the addresses or geographical names of the objects in advance from the text. In computer linguistics, this problem is solved by the methods of extracting named entities (Eng. named entity reco...
Rasprave Instituta za hrvatski jezik i jezikoslovlje
Грађа на основу које се израђује Речник српскохрватског књижевног и народног језика САНУ, а која садржи материјал из преко 4.500 писаних извора и 300 рукописних збирки речи са подручја народних говора штокавског наречја, забележена је на око 5.000.000 листића. Богат лексички материјал, који обухвата књижевни и народни језик у протекла два века и на основу кога треба да се напише још најмање 15 томова Речника, пружа могућност и за разноврсна лингвистичка и ванлингвистичка истраживања. Из тог разлога се приступило дигитализацији грађе и њеној организацији у дигитални репозиторијум, који ће омогућити да се ови у највећем броју врло трошни листићи сачувају, да се учине подесним за аутоматизацију рада на Речнику, што води знатном убрзању његове израде, као и да се грађа записана на њима учини доступном научној, стручној и широј културној јавности. У раду ће бити представљена веб-апликација која је креирана за управљање електронским верзијама листића и резултати досадашњег рада.
Printing and Publishing, 2020
2014
У доповіді запропоновано удосконалений метод пошуку релевантних веб-документів за допомогою модифікованого частотного критерію. Метод має на меті розширення вхідного запиту користувача синонімічними векторами з повторним зважуванням. Здійснено програмну реалізацію методу з використанням програмних засобів Ruby. В ході тестування розроблений метод показав суттєве поліпшення результатів за показниками точності з невеликою втратою у показниках повноти.The paper proposed an improved method of finding relevant Web documents using modified frequency criterion. The method is aimed at expanding the user's query input vectors synonymous with re- weighting. Done software implementation of the method using the software Ruby. During the testing of the developed method showed a significant improvement in results for performance accuracy with a small loss in terms of completeness
А. Шеля. Рукопись.doc: заметки о текстологии цифровых документов // Intermezzo festoso. Liber amicorum in honorem Lea Pild: Историко-филологический сборник в честь доцента кафедры русской литературы Тартуского университета Леа Пильд. Тарту, 2019. С. 356-374., 2019
Когда мы берем в руки карандаш и что-то записываем на листе бумаги, то интуитивно понимаем физические отношения между носителем информации и инструментом письма. Бумага, как правило, достоверно хранит следы контакта с ней: кофейные пятна, записи, слои исправлений, пометки, рисунки. Большинство этих следов доступно любому наблюдателю. Мы можем ничего не понимать в палеографии, не представлять особенности химического состава бумаги или чернил и не разбираться в истории бумажного производства, но это не помешает нам прочесть основную информацию в рукописи. И даже если для текстолога косвенные свидетельства, информация вспомогательных дисциплин и химической экспертизы могут оказаться ключевыми в деле изучения текста, интуитивное представление о физических свойствах рукописи доступно каждому. Мы приблизительно знаем, как можно сохранить бумажную рукопись и -что не менее важно -как ее уничтожить, если мы не хотим, чтобы какая-то информация когда-либо оказалась у третьих лиц.
Loading Preview
Sorry, preview is currently unavailable. You can download the paper by clicking the button above.