Papers by Witold Andrzejewski

Lecture Notes in Computer Science, 2005
Object-relational database management systems allow users to define complex data types, such as o... more Object-relational database management systems allow users to define complex data types, such as objects, collections, and nested tables. Unfortunately, most commercially available database systems do not support either efficient querying or indexing of complex attributes. Different indexing schemes for complex data types have been proposed in the literature so far, most of them being application-oriented proposals. The lack of a single universal indexing technique for attributes containing sets and sequences of values significantly hinders practical usability of these data types in user applications. In this paper we present a novel indexing technique for sequence-valued attributes. Our index permits to index not only sequences of values, but sequences of sets of values as well. Experimental evaluation of the index proves the feasibility and benefit of the index in exact and similar matching of subsequences.

Approximate query processing (AQP) is an interesting alternative for exact query processing. It i... more Approximate query processing (AQP) is an interesting alternative for exact query processing. It is a tool for dealing with the huge data volumes where response time is more important than perfect accuracy (this is typically the case during initial phase of data exploration). There are many techniques for AQP, one of them is based on probability density functions (PDF). PDFs are typically calculated using nonparametric data-driven methods. One of the most popular nonparametric method is the kernel density estimator (KDE). However, a very serious drawback of using KDEs is the large number of calculations required to compute them. The shape of final density function is very sensitive to an entity called bandwidth or smoothing parameter. Calculating it's optimal value is not a trivial task and in general is very time consuming. In this paper we investigate the possibility of utilizing two SIMD architectures: SSE CPU extensions and NVIDIA's CUDA architecture to accelerate finding...

Abstract Collocation Pattern Discovery is field of data mining performed in spatial databases. It... more Abstract Collocation Pattern Discovery is field of data mining performed in spatial databases. It consists in searching for types of spatial objects that are frequently located together in a spatial neighborhood. Such patterns are useful in many application domains including, but not limited to, biology, geography, marketing and meteorology. To cope with processing of these huge volumes of data, programmable high-performance hardware is needed. For this purpose we propose to utilize graphics processing units (GPUs) of modern graphics cards. GPUs have been proven recently to be extremely efficient in accelerating many existing algorithms. In this paper we present, a new GPU-accelerated version of iCPI-tree based algorithm for the collocation discovery problem. The presented algorithm was carefully designed to be able to work in limited memory environments and still retain high performance. Our contribution in this paper is threefold: (1) we present a new GPU based algorithm which has...
In order to extract useful knowledge from large databases of sales data, data mining algorithms (... more In order to extract useful knowledge from large databases of sales data, data mining algorithms (the so-called market basket anal- ysis) are used. Unfortunately, these algorithms, depending on data and parameters, may generate a large number of patterns. Analysis of these results is performed by the user and involves executing a lot of queries on complex data types that are not well supported by commercially available database management systems. To increase eciency of anal- ysis of data mining results, new index structures need to be developed. In this paper we propose the indexing scheme for non-timestamped se- quences of sets, which supports set subsequence queries. Experimental evaluation of the index proves the feasibility and benefit of the index in query processing.

W ciągu ostatnich 60 lat bazy danych wyewoluowały z prostych systemów plików i stały się zaawanso... more W ciągu ostatnich 60 lat bazy danych wyewoluowały z prostych systemów plików i stały się zaawansowanymi strukturami danych składującymi dane olbrzymiej liczby użytkowników dla wielu różnych aplikacji. Bazy danych znajdują zastosowania w każdej dziedzinie życia, która podlega informatyzacji. W bazach danych składowane są: dane pracowników firm, dane klientów banku, dane o sprzedaży towarów, dane firm ubezpieczeniowych, dane pacjentów szpitali itp. Prostymi bazami danych są: listy utworów muzycznych w odtwarzaczach MP3 i książki telefoniczne w telefonach komórkowych. W systemach nawigacji konwencjonalne bazy danych wykorzystuje się do przechowywania informacji o szpitalach, bankach, bankomatach, zabytkach, stacjach benzynowych itp., a mapy składowane są w przestrzennych bazach danych. Bazy danych stanowią podstawę większości serwisów internetowych, w ramach których przechowują m.in. informacje o użytkownikach, ich preferencjach i historii korzystania z serwisu. Przykładem powszechnie wykorzystywanej bazy danych jest np. serwis Google. Systemy plików w komputerach również są prostymi bazami danych. W bazach danych przechowuje się wyniki obserwacji astronomicznych, wyniki sekwencjonowania DNA, wyniki eksperymentów fizycznych, chemicznych i biologicznych. Potencjalny zakres zastosowań baz danych jest zatem olbrzymi i ciągle się powiększa. Pojawiają się ciągle nowe dziedziny zastosowań, w których zachodzi konieczność składowania, przeszukiwania, zarządzania i analizowania 346 Witold Andrzejewski, Zbyszko Królikowski, Tadeusz Morzy danych. Wraz z nowymi dziedzinami zastosowań pojawiają się nowe problemy naukowe związane z zapewnieniem efektywnej pracy systemów baz danych w nowych zastosowaniach, jak również zapewnienie nowych metod przeszukiwania i analizy danych. Przykładami mogą być tutaj ewolucja baz danych od systemów przechowujących proste dane alfanumeryczne do systemów przechowujących dane o złożonych typach, w tym, dane multimedialne i semistrukturalne. Innym przykładem może być ewolucja złożoności wyszukiwania i przetwarzania danych, począwszy od prostego wyszukiwania rekordów spełniających określone warunki, poprzez systemy obliczające złożone podsumowania na podstawie olbrzymich zbiorów danych, a kończąc na tak zwanej eksploracji danych, której celem jest odkrywanie wiedzy (to jest, zależności, które nie są explicite zapisane w bazie danych) na podstawie zgromadzonych danych. Mimo niewątpliwego sukcesu komercyjnego technologii systemów baz danych, hurtowni danych czy eksploracji danych, będącego wynikiem olbrzymiej ilości środków i pracy, jaką włożyło środowisko naukowe i firmy komercyjne w rozwój tych technologii, nadal rozwiązanie szeregu problemów badawczych i implementacyjnych warunkuje
Lecture Notes in Computer Science, 2010
... As there is a high probability that the next generated word will be a different than the prev... more ... As there is a high probability that the next generated word will be a different than the previous one, it may cause the ... Greß, A., Zachmann, G.: GPU-ABiSort: Optimal Parallel Sorting on Stream Archi-tectures. ... O'Neil, P., Quass, D.: Improved query performance with variant indexes. ...
ABSTRACT Recent appearance of the a type of OLAP analysis, the sequential OLAP (or SOLAP) has cau... more ABSTRACT Recent appearance of the a type of OLAP analysis, the sequential OLAP (or SOLAP) has caused the need for new index structures which support new types of analytical queries. An integral part of processing SOLAP queries is finding sequences which match a user-specified pattern. We call such queries \emph{subsequence pattern queries}. The contribution of this paper is threefold: first, we propose logical and physical index structure which supports subsequence pattern queries, second, we extend this structure to support aggregation queries and third, we perform performance experiments which show that our solutions offer orders of magnitude improvement over previous state of the art solutions.

Abstrakt. Artykuł pokazuje przykładowe zastosowanie architektury CUDA opracowanej przez firmę NVI... more Abstrakt. Artykuł pokazuje przykładowe zastosowanie architektury CUDA opracowanej przez firmę NVIDIA dla swoich kart graficznych. CUDA to uniwersalna architektura procesorów wielordzeniowych instalowanych we współczesnych, najbardziej wydajnych, kartach graficznych. Karta taka, oprócz oczywistych zastosowań w dziedzinie ogólnie pojętego przetwarzania obrazu, może być z powodzeniem wykorzystywana do wykonywania złożonych obliczeń numerycznych, zwłaszcza takich, które poddają się operacji zrównoleglenia (można wówczas efektywnie wykorzystywać moc zainstalowanych na karcie graficznej tzw. multiprocesorów strumieniowych). Jako przykład bardzo czasochłonnych obliczeń wybrano procedury wyznaczania tzw. parametrów wygładzania estymatorów jądrowych służących do wyznaczania rozkładów prawdopodobieństwa danych. Znajomość takich rozkładów pozwala na ekstremalnie szybkie wyznaczanie przybliżonych wyników zapytań agregujących.
Uploads
Papers by Witold Andrzejewski