Witold Andrzejewski

Followers

Following

Co-author

Public Views

Andrej Dujella

University of Zagreb

Hemin Koyi

Uppsala University

Jana Javornik

University of East London

Graham Martin

University of Leicester

Gwen Robbins Schug

University of North Carolina at Greensboro

Gabriel Gutierrez-Alonso

University of Salamanca

John Sutton

Macquarie University

Eros Carvalho

Universidade Federal do Rio Grande do Sul

Kevin Arbuckle

Swansea University

Jesper Hoffmeyer

University of Copenhagen

Uploads

Papers by Witold Andrzejewski

Database accelerators

Download

Wydajne grupowanie obiektów metodą K-Medoids z wykorzystaniem technologii CUDA

Nowy indeks wspierający zapytania przybliżone dla sekwencji zbiorów

Indexing of Sequences of Sets for Efficient Exact and Similar Subsequence Matching

Lecture Notes in Computer Science, 2005

Object-relational database management systems allow users to define complex data types, such as o... more Object-relational database management systems allow users to define complex data types, such as objects, collections, and nested tables. Unfortunately, most commercially available database systems do not support either efficient querying or indexing of complex attributes. Different indexing schemes for complex data types have been proposed in the literature so far, most of them being application-oriented proposals. The lack of a single universal indexing technique for attributes containing sets and sequences of values significantly hinders practical usability of these data types in user applications. In this paper we present a novel indexing technique for sequence-valued attributes. Our index permits to index not only sequences of values, but sequences of sets of values as well. Experimental evaluation of the index proves the feasibility and benefit of the index in exact and similar matching of subsequences.

Download

Density Estimations for Approximate Query Processing on SIMD Architectures

Approximate query processing (AQP) is an interesting alternative for exact query processing. It i... more Approximate query processing (AQP) is an interesting alternative for exact query processing. It is a tool for dealing with the huge data volumes where response time is more important than perfect accuracy (this is typically the case during initial phase of data exploration). There are many techniques for AQP, one of them is based on probability density functions (PDF). PDFs are typically calculated using nonparametric data-driven methods. One of the most popular nonparametric method is the kernel density estimator (KDE). However, a very serious drawback of using KDEs is the large number of calculations required to compute them. The shape of final density function is very sensitive to an entity called bandwidth or smoothing parameter. Calculating it's optimal value is not a trivial task and in general is very time consuming. In this paper we investigate the possibility of utilizing two SIMD architectures: SSE CPU extensions and NVIDIA's CUDA architecture to accelerate finding...

Collocation Pattern Mining on GPUs

Abstract Collocation Pattern Discovery is field of data mining performed in spatial databases. It... more Abstract Collocation Pattern Discovery is field of data mining performed in spatial databases. It consists in searching for types of spatial objects that are frequently located together in a spatial neighborhood. Such patterns are useful in many application domains including, but not limited to, biology, geography, marketing and meteorology. To cope with processing of these huge volumes of data, programmable high-performance hardware is needed. For this purpose we propose to utilize graphics processing units (GPUs) of modern graphics cards. GPUs have been proven recently to be extremely efficient in accelerating many existing algorithms. In this paper we present, a new GPU-accelerated version of iCPI-tree based algorithm for the collocation discovery problem. The presented algorithm was carefully designed to be able to work in limited memory environments and still retain high performance. Our contribution in this paper is threefold: (1) we present a new GPU based algorithm which has...

ICPI Tree construction parallelization on Graphics Processing Units

Ocena efektywności hierarchicznego indeksu bitmapowego wspierającego wykonywanie zapytań w bazach danych z atrybutami zawierającymi zbior

Hierarchiczny indeks bitmapowy wspierający wykonywanie zapytań w bazach danych z atrybutami zawierającymi zbiory

How to Improve Eciency of Analysis of Sequential Data?

In order to extract useful knowledge from large databases of sales data, data mining algorithms (... more In order to extract useful knowledge from large databases of sales data, data mining algorithms (the so-called market basket anal- ysis) are used. Unfortunately, these algorithms, depending on data and parameters, may generate a large number of patterns. Analysis of these results is performed by the user and involves executing a lot of queries on complex data types that are not well supported by commercially available database management systems. To increase eciency of anal- ysis of data mining results, new index structures need to be developed. In this paper we propose the indexing scheme for non-timestamped se- quences of sets, which supports set subsequence queries. Experimental evaluation of the index proves the feasibility and benefit of the index in query processing.

Bazy danych i systemy informatyczne oraz ich wpływ na rozwój informatyki w Polsce

W ciągu ostatnich 60 lat bazy danych wyewoluowały z prostych systemów plików i stały się zaawanso... more W ciągu ostatnich 60 lat bazy danych wyewoluowały z prostych systemów plików i stały się zaawansowanymi strukturami danych składującymi dane olbrzymiej liczby użytkowników dla wielu różnych aplikacji. Bazy danych znajdują zastosowania w każdej dziedzinie życia, która podlega informatyzacji. W bazach danych składowane są: dane pracowników firm, dane klientów banku, dane o sprzedaży towarów, dane firm ubezpieczeniowych, dane pacjentów szpitali itp. Prostymi bazami danych są: listy utworów muzycznych w odtwarzaczach MP3 i książki telefoniczne w telefonach komórkowych. W systemach nawigacji konwencjonalne bazy danych wykorzystuje się do przechowywania informacji o szpitalach, bankach, bankomatach, zabytkach, stacjach benzynowych itp., a mapy składowane są w przestrzennych bazach danych. Bazy danych stanowią podstawę większości serwisów internetowych, w ramach których przechowują m.in. informacje o użytkownikach, ich preferencjach i historii korzystania z serwisu. Przykładem powszechnie wykorzystywanej bazy danych jest np. serwis Google. Systemy plików w komputerach również są prostymi bazami danych. W bazach danych przechowuje się wyniki obserwacji astronomicznych, wyniki sekwencjonowania DNA, wyniki eksperymentów fizycznych, chemicznych i biologicznych. Potencjalny zakres zastosowań baz danych jest zatem olbrzymi i ciągle się powiększa. Pojawiają się ciągle nowe dziedziny zastosowań, w których zachodzi konieczność składowania, przeszukiwania, zarządzania i analizowania 346 Witold Andrzejewski, Zbyszko Królikowski, Tadeusz Morzy danych. Wraz z nowymi dziedzinami zastosowań pojawiają się nowe problemy naukowe związane z zapewnieniem efektywnej pracy systemów baz danych w nowych zastosowaniach, jak również zapewnienie nowych metod przeszukiwania i analizy danych. Przykładami mogą być tutaj ewolucja baz danych od systemów przechowujących proste dane alfanumeryczne do systemów przechowujących dane o złożonych typach, w tym, dane multimedialne i semistrukturalne. Innym przykładem może być ewolucja złożoności wyszukiwania i przetwarzania danych, począwszy od prostego wyszukiwania rekordów spełniających określone warunki, poprzez systemy obliczające złożone podsumowania na podstawie olbrzymich zbiorów danych, a kończąc na tak zwanej eksploracji danych, której celem jest odkrywanie wiedzy (to jest, zależności, które nie są explicite zapisane w bazie danych) na podstawie zgromadzonych danych. Mimo niewątpliwego sukcesu komercyjnego technologii systemów baz danych, hurtowni danych czy eksploracji danych, będącego wynikiem olbrzymiej ilości środków i pracy, jaką włożyło środowisko naukowe i firmy komercyjne w rozwój tych technologii, nadal rozwiązanie szeregu problemów badawczych i implementacyjnych warunkuje

Download

GPU-based Implementation of the PLWAH Algorithm for Compressing Bitmaps

GPU-WAH: Applying GPUs to Compressing Bitmap Indexes with Word Aligned Hybrid

Lecture Notes in Computer Science, 2010

... As there is a high probability that the next generated word will be a different than the prev... more ... As there is a high probability that the next generated word will be a different than the previous one, it may cause the ... Greß, A., Zachmann, G.: GPU-ABiSort: Optimal Parallel Sorting on Stream Archi-tectures. ... O'Neil, P., Quass, D.: Improved query performance with variant indexes. ...

Indexing of sequential patterns for efficient analysis of data mining results

Implementacja indeksów dla analizy wyników eksploracji danych w Oracle 10g

by Witold Andrzejewski and Mariusz Masewicz

Fast Clustering on CUDA Platform

FOCUS: an index for continuous subsequence pattern queries

ABSTRACT Recent appearance of the a type of OLAP analysis, the sequential OLAP (or SOLAP) has cau... more ABSTRACT Recent appearance of the a type of OLAP analysis, the sequential OLAP (or SOLAP) has caused the need for new index structures which support new types of analytical queries. An integral part of processing SOLAP queries is finding sequences which match a user-specified pattern. We call such queries \emph{subsequence pattern queries}. The contribution of this paper is threefold: first, we propose logical and physical index structure which supports subsequence pattern queries, second, we extend this structure to support aggregation queries and third, we perform performance experiments which show that our solutions offer orders of magnitude improvement over previous state of the art solutions.

Przybliżone zapytania do baz danych z akceleracją obliczeń rozkładów prawdopodobieństwa

Abstrakt. Artykuł pokazuje przykładowe zastosowanie architektury CUDA opracowanej przez firmę NVI... more Abstrakt. Artykuł pokazuje przykładowe zastosowanie architektury CUDA opracowanej przez firmę NVIDIA dla swoich kart graficznych. CUDA to uniwersalna architektura procesorów wielordzeniowych instalowanych we współczesnych, najbardziej wydajnych, kartach graficznych. Karta taka, oprócz oczywistych zastosowań w dziedzinie ogólnie pojętego przetwarzania obrazu, może być z powodzeniem wykorzystywana do wykonywania złożonych obliczeń numerycznych, zwłaszcza takich, które poddają się operacji zrównoleglenia (można wówczas efektywnie wykorzystywać moc zainstalowanych na karcie graficznej tzw. multiprocesorów strumieniowych). Jako przykład bardzo czasochłonnych obliczeń wybrano procedury wyznaczania tzw. parametrów wygładzania estymatorów jądrowych służących do wyznaczania rozkładów prawdopodobieństwa danych. Znajomość takich rozkładów pozwala na ekstremalnie szybkie wyznaczanie przybliżonych wyników zapytań agregujących.

Download

Probability Density Functions for Calculating Approximate Aggregates

Problematyka bezpieczeństwa usług Web Services

Database accelerators

Download

Wydajne grupowanie obiektów metodą K-Medoids z wykorzystaniem technologii CUDA

Nowy indeks wspierający zapytania przybliżone dla sekwencji zbiorów

Indexing of Sequences of Sets for Efficient Exact and Similar Subsequence Matching

Lecture Notes in Computer Science, 2005

Download

Density Estimations for Approximate Query Processing on SIMD Architectures