Nips 2015
Nips 2015
8 Abstrak
9 Penelitian ini memperkenalkan pipeline end-to-end untuk prediksi arah
10 harian harga Bitcoin dengan menggabungkan sinyal teknikal frekuensi
11 tinggi dan sentimen Twitter real-time. Data per-menit dipadukan dengan
12 skor sentimen tweet melalui as-of merge 30 detik, lalu di-resample menjadi
13 fitur harian OHLCV, rata-rata sentimen, dan return yang di-winsorize.
14 Tahap feature engineering mengekstrak indikator klasik (SMA, EMA, RSI,
15 MACD, Bollinger Bands), statistik lag dan rolling untuk harga, volume, dan
16 sentimen, serta fitur kalender dan interaksi antarvariabel. Empat base
17 learner—CatBoost, LightGBM, TabNet, dan Transformer kustom—dilatih
18 menggunakan time-series cross-validation untuk menghasilkan prediksi
19 probabilitas out-of-fold. Prediksi ini kemudian difit ke meta-learner
20 Logistic Regression yang dikalibrasi dengan isotonic regression dan
21 dipastikan threshold-nya melalui Youden’s J. Pada hold-out test set,
22 ensemble mencapai ROC AUC 0,557 dan akurasi 51,2 %, lebih baik dari
23 tebakan acak dan stabil terhadap variasi threshold serta hyperparameter
24 preprocessing. Studi ablation menegaskan pentingnya sinyal sentimen dan
25 indikator teknikal jangka pendek. Hasil ini menunjukkan bahwa integrasi
26 data granular pasar dan sosial melalui stacking terkalibrasi memberikan
27 edge prediktif yang andal di pasar kripto yang sangat berisik. Pipeline ini
28 siap diadopsi oleh platform trading, produk fintech, dan instansi pengawas
29 pasar di Indonesia.
30
31 1 Pendahuluan
32 Pasar Bitcoin terkenal dengan volatilitas yang sangat tinggi, di mana fluktuasi harga intraday
33 sering kali tajam dan tidak terduga [1][2]. Indikator teknikal klasik seperti Simple Moving
34 Average (SMA), Exponential Moving Average (EMA), Relative Strength Index (RSI),
35 Moving Average Convergence Divergence (MACD), dan Bollinger Bands banyak digunakan
36 oleh trader untuk menangkap momentum maupun potensi pembalikan harga, namun sinyal
37 teknikal saja sering terlambat merespons lonjakan yang dipicu opini pasar [3]. Di sisi lain,
38 aktivitas media sosial, khususnya Twitter, menyediakan aliran informasi real-time mengenai
39 sentimen pelaku pasar yang kerap mendahului pergerakan harga aktual [4][5].
40 Mengintegrasikan kedua sumber sinyal ini diharapkan dapat meningkatkan akurasi prediksi
41 arah harga harian, terutama di pasar yang padat noise.
42 Di Indonesia, adopsi aset kripto terus melaju pesat di kalangan retail dan institusi, dengan
43 14,6 juta investor dan peringkat ketiga dalam adopsi global pada kuartal pertama 2025 [6],
44 namun infrastruktur riset dan regulasi masih menghadapi berbagai tantangan. OJK dan
45 Bappebti kini sama-sama mengawasi stabilitas pasar kripto termasuk implementasi
46 Government Regulation No. 49/2024 dan OJK Regulation No. 27/2024 sejak 10 Januari 2025
47 yang menetapkan kerangka perizinan dan persyaratan modal minimum bagi penyelenggara
48 Digital Financial Asset (DFA) [7], sementara platform trading lokal berlomba menyediakan
49 sinyal dan rekomendasi yang handal. Sebagian besar kajian lokal saat ini masih
50 menggunakan data harian dengan granularitas rendah misalnya Patamorgana & Hudaya
51 (2024) yang menganalisis pengaruh Bitcoin dan aset kripto lain terhadap harga saham
52 Indonesia hanya pada level daily (multiple regression, 1.096 observasi harian) [8] atau
53 memisahkan analisis teknikal dan sentiment seperti kerangka investasi kripto yang hanya
54 mengolah sentimen Twitter influencer secara tersendiri [9], sehingga belum mampu
55 menangkap dinamika intra-hari dan interaksi kompleks antar-variabel. Kesenjangan ini
56 menuntut metode yang mampu menggabungkan granularitas tinggi dan konteks sentimen
57 dalam satu kerangka kerja.
58 Analisis yang dihasilkan oleh penelitian ini membawa dampak signifikan bagi ekosistem
59 kripto di Indonesia. Bagi platform trading, pipeline ini dapat meningkatkan ketepatan sinyal
60 harian sehingga membantu pengguna mengambil keputusan beli/jual dengan risiko
61 terukur [10][11]. Regulator seperti OJK dan Bappebti dapat memanfaatkan agregasi sinyal
62 teknikal dan sentimen untuk memantau potensi gelembung atau peningkatan volatilitas
63 sebelum terjadi lonjakan harga ekstrem [12][13]. Selain itu, data granularitas tinggi dan
64 metodologi stacking terkalibrasi dapat dijadikan dasar bagi lembaga riset dan universitas
65 untuk mengembangkan studi lanjutan, serta bagi developer fintech untuk mengintegrasikan
66 model prediksi ke dalam aplikasi mobile dan dashboard pengawasan [14].
67 Penelitian ini memperkenalkan pipeline end-to-end yang menyelaraskan data harga Bitcoin
68 per-menit dan skor sentimen Twitter menjadi fitur harian (OHLCV, rata-rata sentimen, return
69 ter-winsorize) menggunakan join as-of pada pandas , di mana return kemudian di-winsorize
70 untuk meredam efek outlier [15]. Selanjutnya dilakukan rangkaian feature engineering
71 komprehensif, termasuk perhitungan indikator teknikal (SMA, EMA, RSI, MACD, Bollinger
72 Bands), lag dan rolling statistics, fitur kalender, serta interaksi antar-variabel. Empat model
73 dasar CatBoost [16], LightGBM [17], TabNet [18], dan arsitektur Transformer kustom ala
74 TabTransformer [19]dilatih dengan time-series cross-validation untuk menghasilkan prediksi
75 probabilitas out-of-fold. Prediksi OOF ini kemudian dipadukan menggunakan meta-learner
76 Logistic Regression yang dikalibrasi dengan Isotonic Regression [20], dan threshold
77 optimalnya ditentukan berdasarkan Youden’s J index [21]. Evaluasi pada test set terpisah
78 mencapai ROC AUC 0,557 dan akurasi 51,2 %, menunjukkan bahwa kombinasi sinyal
79 teknikal dan sentimen mampu memberikan edge prediktif meski pasar sangat berisik.
80
81 2 Kajian Teori
82 Teori analisis teknikal berlandaskan asumsi bahwa harga aset tercermin dalam pergerakan
83 historisnya, sehingga pola harga dan volume dapat digunakan untuk memprediksi arah
84 selanjutnya [22]. Indikator‐indikator seperti SMA dan EMA menghitung rata‐rata bergerak
85 pada berbagai jangka waktu untuk menangkap tren [23], sedangkan RSI dan MACD
86 mengukur kekuatan momentum dan potensi pembalikan [24]. Bollinger Bands menambahkan
87 konteks volatilitas dengan pita deviasi standar di sekitar moving average [25]. Secara teoritis,
88 kombinasi indikator ini membantu menapis noise pasar dengan memadukan sinyal tren,
89 momentum, dan volatilitas, membentuk landasan untuk sinyal beli dan jual.
90 Di sisi lain, teori analisis sentimen finansial berangkat dari hipotesis bahwa opini publik
91 yang tersebar di media sosial memiliki pengaruh terhadap ekspektasi harga [26]. Model-
92 model sentiment analysis (berbasis lexicon dan pendekatan deep learning) mengekstrak skor
93 positif–negatif dari teks untuk mengukur mood pasar [27]. Penelitian sebelumnya
94 menunjukkan bahwa gelombang sentimen positif sering kali mendahului kenaikan harga,
95 sedangkan sentimen negatif dapat mempercepat penurunan [28].
96 Dalam konteks machine learning, menggabungkan fitur teknikal dan sentimen dalam satu
97 kerangka ensemble dengan base learners yang kuat dalam menangani non-linearitas
98 (CatBoost, LightGBM), data berurutan (TabNet), dan hubungan kontekstual (Transformer)
99 [29] kemudian distack melalui meta-learner terkalibrasi (Logistic Regression + Isotonic
100 Regression) [30], diyakini dapat memaksimalkan kekuatan komplementer kedua jenis sinyal
101 tersebut.
102
103 3 Solusi Usulan
104 Solusi yang diusulkan berupa pipeline end-to-end yang mengintegrasikan dua jenis sinyal
105 teknikal dan sentimen dengan granularitas tinggi untuk prediksi arah harian harga Bitcoin.
106 Pertama, data harga per-menit diambil dari repositori publik dan diselaraskan dengan skor
107 sentimen tweet melalui metode as-of merge dengan toleransi 30 detik menggunakan
108 pandas.merge_asof [31]. Setelah itu, data gabungan di-resample ke level harian untuk
109 membentuk fitur OHLCV (open, high, low, close, volume), rata-rata skor sentimen, serta
110 return harian yang di-winsorize untuk mengurangi pengaruh outlier ekstrem [32]. Tahap
111 feature engineering kemudian mengekstrak indikator teknikal klasik (SMA, EMA, RSI,
112 MACD, Bollinger Bands), lag dan statistik rolling untuk harga, volume, dan sentimen, serta
113 menambahkan fitur kalender dan interaksi antar-variabel, sehingga rangkaian fitur yang
114 dihasilkan mencakup tren, momentum, volatilitas, konteks sentimen, dan faktor
115 temporal [33].
116 Selanjutnya, pipeline menerapkan strategi ensemble stacking dengan empat base learners
117 CatBoost, LightGBM, TabNet, dan arsitektur Transformer kustom yang dilatih menggunakan
118 time-series cross-validation untuk mempertahankan urutan temporal dalam evaluasi
119 model [34]. Prediksi probabilitas out-of-fold (OOF) dari keempat model ini selanjutnya
120 digabungkan oleh meta-learner Logistic Regression yang dikalibrasi secara isotonic untuk
121 memperbaiki kesesuaian probabilitas. Keputusan klasifikasi akhir menggunakan threshold
122 optimal yang ditentukan melalui Youden’s J statistic, sehingga menyeimbangkan sensitivitas
123 dan spesifisitas pada titik ideal [21]. Dengan pendekatan ini, pipeline memanfaatkan
124 keunggulan masing-masing algoritma dalam menangani data tabular, urutan temporal, dan
125 relasi kompleks, sekaligus memastikan stabilitas dan kalibrasi probabilitas yang baik. Hasil
126 evaluasi pada data test terpisah menunjukkan peningkatan signifikan dibanding baseline
127 single-model maupun ensemble tanpa kalibrasi, menegaskan efektivitas solusi ini untuk
128 sinyal trading harian di pasar kripto yang sangat berisik.
129
130 4 Hasil Eksperimen dan Pengujian
131 4.1 Deskripsi Setup Eksperimen
132 Dataset dibagi secara kronologis menjadi tiga bagian: 70 % data pertama untuk pelatihan, 15
133 % berikutnya untuk validasi menggunakan 5-fold TimeSeriesSplit [35], dan 15 % terakhir
134 sebagai hold-out test. TimeSeriesSplit memastikan setiap fold maju satu blok waktu sehingga
135 skenario “future always ahead of past” terpenuhi [34]. Metrik utama yang dilaporkan
136 meliputi ROC AUC untuk kualitas ranking probabilitas [36], log-loss (cross-entropy loss)
137 untuk penalti kesalahan probabilitas [37], dan Brier score sebagai ukuran kalibrasi
138 probabilitas [38], serta akurasi, precision, dan recall pada threshold optimal yang ditetapkan
139 melalui Youden’s J statistic [39]. Semua eksperimen dijalankan dengan penguncian random
140 seed untuk menjamin reprodusibilitas. Proses preprocessing (merge per-menit, resample
141 harian, winsorizing), feature engineering, pelatihan base learners, stacking, dan kalibrasi
142 diotomasi dalam satu pipeline terstandarisasi.
143
159
160
161
162 Gaambar 2 : Learning curve model
163
164 4.3 Hasil Stacking & Kalibrasi
165 Stacking dilakukan dengan menggabungkan probabilitas out-of-fold (OOF) dari empat base
166 learners sebagai fitur untuk meta-learner Logistic Regression, skema ini kerap disebut
167 stacked generalization [40]. Setelah menerapkan isotonic regression untuk mengkalibrasi
168 probabilitas dan menentukan threshold optimal berdasarkan Youden’s J, Brier score turun
169 dan ROC AUC pun mengalami sedikit peningkatan [41]. Pada test set terpisah, model
170 terkalibrasi mencatat ROC AUC 0,557 dan akurasi 51,2 %, lebih stabil dibanding model non-
171 stacked, serta menampilkan kurva kalibrasi yang lebih mendekati diagonal pada reliability
172 diagram, mengilustrasikan bahwa strategi stacking dan kalibrasi tidak hanya meningkatkan
173 performa ranking tetapi juga memperbaiki keandalan probabilitas yang dihasilkan.
174
222
223
224
235
243
251
252 Gambar 7: Prediksi arah harga bitcoin (ensemble)
253 Sedangkan pada gambar 8 menunjukkan akurasi prediksi dalam jendela bergulir 30 hari,
254 dengan garis putus-putus pada level 50 % sebagai baseline acak. Area hijau menandai
255 periode di mana akurasi berada di atas baseline, sedangkan area merah menunjukkan saat
256 akurasi di bawah baseline. Periode dengan akurasi tinggi relatif panjang, mengindikasikan
257 tahap pasar yang lebih terstruktur, sementara penurunan akurasi pada beberapa titik
258 mencerminkan lonjakan noise. Rentang fluktuasi sekitar ±0,5 % di sekitar baseline
259 menggambarkan ketahanan model terhadap perubahan kondisi pasar jangka pendek.
260
295 References
[1]
296 I. Barjašić and N. Antulov-Fantulin, “Time-Varying Volatility in Bitcoin Market and Information
297 Flow at Minute-Level Frequency,” Front Phys, vol. 9, 2021, doi: 10.3389/fphy.2021.644102.
[2]
298 R. F. Ceballos and F. F. Largo, “On The Estimation of the Hurst Exponent Using Adjusted
299 Rescaled Range Analysis, Detrended Fluctuation Analysis and Variance Time Plot: A Case of
300 Exponential Distribution,” May 2018.
[3]
301 A. Hafid, M. Rahouti, L. Kong, M. Ebrahim, and M. A. Serhani, “Predicting Bitcoin Market
302 Trends with Enhanced Technical Indicator Integration and Classification Models,” Oct. 2024.
[4]
303 D. Garcia and F. Schweitzer, “Social signals and algorithmic trading of Bitcoin,” R Soc Open Sci,
304 vol. 2, no. 9, 2015, doi: 10.1098/rsos.150288.
[5]
305 M. E. Akbiyik, M. Erkul, K. Kämpf, V. Vasiliauskaite, and N. Antulov-Fantulin, “Ask ‘who’, Not
306 ‘what’: Bitcoin Volatility Forecasting with Twitter Data,” in WSDM 2023 - Proceedings of the
307 16th ACM International Conference on Web Search and Data Mining, Association for Computing
308 Machinery, Inc, Feb. 2023, pp. 688–696. doi: 10.1145/3539597.3570387.
[6]
309 “Indonesia Transfers Crypto Oversight to OJK Boosting Consumer Protection,”
310 [Link]
311 protection-2507/.
[7]
312 “Indonesia Transfers Crypto Oversight to OJK Boosting Consumer Protection,”
313 [Link]
314 protection-2507/.
[8]
315 M. S. Patamorgana and Robith Hudaya, “The Influence of Cryptocurrency on Indonesian Stock
316 Market,” International Journal of Business and Quality Research, vol. 2, pp. 92–102, Mar. 2024,
317 doi: 10.63922/ijbqr.v2i01.704.
[9]
318 M. A. Z. Chahooki, K. Jahanbin, and T. Sutikno, “Cryptocurrencies investment framework using
319 sentiment analysis of Twitter influencers,” Indonesian Journal of Electrical Engineering and
320 Computer Science, vol. 30, no. 2, 2023, doi: 10.11591/ijeecs.v30.i2.pp1068-1079.
[10]
321 A. F. Aysan, M. Caporin, and O. Cepni, “Not all words are equal: Sentiment and jumps in the
322 cryptocurrency market,” Journal of International Financial Markets, Institutions and Money, vol.
323 91, 2024, doi: 10.1016/[Link].2023.101920.
[11]
324 J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional
325 transformers for language understanding,” in NAACL HLT 2019 - 2019 Conference of the North
326 American Chapter of the Association for Computational Linguistics: Human Language
327 Technologies - Proceedings of the Conference, Association for Computational Linguistics (ACL),
328 2019, pp. 4171–4186.
[12]
329 F. A. Enoksen, C. J. Landsnes, K. Lučivjanská, and P. Molnár, “Understanding risk of bubbles in
330 cryptocurrencies,” J Econ Behav Organ, vol. 176, 2020, doi: 10.1016/[Link].2020.05.005.
[13]
331 C. Y. H. Chen and C. M. Hafner, “Sentiment-Induced Bubbles in the Cryptocurrency Market,”
332 Journal of Risk and Financial Management, vol. 12, Jun. 2019, doi: 10.3390/jrfm12020053.
[14]
333 C. Y. H. Chen and C. M. Hafner, “Sentiment-Induced Bubbles in the Cryptocurrency Market,”
334 Journal of Risk and Financial Management, vol. 12, Jun. 2019, doi: 10.3390/jrfm12020053.
[15]
335 B. K. Lee, J. Lessler, and E. A. Stuart, “Weight trimming and propensity score weighting,” PLoS
336 ONE.
[16]
337 L. Prokhorenkova, G. Gusev, A. Vorobev, A. V. Dorogush, and A. Gulin, “Catboost: Unbiased
338 boosting with categorical features,” in Advances in Neural Information Processing Systems,
339 Neural information processing systems foundation, 2018, pp. 6638–6648.
[17]
340 G. Ke et al., “LightGBM: A highly efficient gradient boosting decision tree,” in Advances in
341 Neural Information Processing Systems, 2017.
[18]
342 S. Arık and T. Pfister, “TabNet: Attentive Interpretable Tabular Learning,” in 35th AAAI
343 Conference on Artificial Intelligence, AAAI 2021, 2021. doi: 10.1609/aaai.v35i8.16826.
[19]
344 X. Huang, A. Khetan, M. Cvitkovic, and Z. Karnin, “TabTransformer: Tabular Data Modeling
345 Using Contextual Embeddings,” Dec. 2020.
[20]
346 B. Zadrozny and C. Elkan, “Transforming classifier scores into accurate multiclass probability
347 estimates,” in Proceedings of the ACM SIGKDD International Conference on Knowledge
348 Discovery and Data Mining, 2002. doi: 10.1145/775047.775151.
[21]
349 W. J. Youden, “Index for rating diagnostic tests,” Cancer, vol. 3, pp. 32–35, 1950, doi:
350 10.1002/1097-0142(1950)3:1<32::AID-CNCR2820030106>[Link];2-3.
[22]
351 C. H. Park and S. H. Irwin, “What do we know about the profitability of technical analysis?,”
352 Journal of Economic Surveys.
[23]
353 “Commodity Investing: Top Technical Indicators,” [Link]
354 trading/102314/[Link]?utm_source=[Link].
[24]
355 “Relative Strength Index (RSI) Indicator Explained With Formula,”
356 [Link]
[25]
357 C. Lento, N. Gradojevic, and C. S. Wright, “Investment information content in Bollinger Bands?,”
358 Applied Financial Economics Letters.
[26]
359 J. Bollen, H. Mao, and X. Zeng, “Twitter mood predicts the stock market,” J Comput Sci, vol. 2,
360 no. 1, 2011, doi: 10.1016/[Link].2010.12.007.
[27]
361 M. C. W. | U. of N. Dame, “Loughran-McDonald Master Dictionary w/ Sentiment Word Lists,”
362 [Link]
[28]
363 P. C. Tetlock, “Giving content to investor sentiment: The role of media in the stock market,”
364 Journal of Finance, vol. 62, no. 3, 2007, doi: 10.1111/j.1540-6261.2007.01232.x.
[29]
365 H. Jones, J. Moore, and G. Kenyon, “LANL Student Symposium Poster 2019,” p. 1, 2019.
[30]
366 A. Niculescu-Mizil and R. Caruana, “Predicting good probabilities with supervised learning,” in
367 ICML 2005 - Proceedings of the 22nd International Conference on Machine Learning, 2005. doi:
368 10.1145/1102351.1102430.
[31]
369 “pandas.merge_asof#,” [Link]
370 utm_source=[Link].
[32]
371 B. K. Lee, J. Lessler, and E. A. Stuart, “Weight trimming and propensity score weighting,” PLoS
372 ONE.
[33]
373 F. Follonier, “Mastering Multivariate Stock Market Prediction with Python: A Guide to Effective
374 Feature Engineering Techniques,” [Link]
375 time-series-models-with-python/1813/?utm_source=[Link].
[34]
376 C. Bergmeir and J. M. Benítez, “On the use of cross-validation for time series predictor
377 evaluation,” Inf Sci (N Y), vol. 191, 2012, doi: 10.1016/[Link].2011.12.028.
[35]
378 “sklearn.model_selection.TimeSeriesSplit¶,”
379 [Link]
380 utm_source=[Link].
[36]
381 “Hierarchical-Based.”
[37]
382 “Loss Functions¶,” [Link]
383 utm_source=[Link].
[38]
384 R. Ahmadian, M. Ghatee, and J. Wahlström, “Superior Scoring Rules for Probabilistic Evaluation
385 of Single-Label Multi-Class Classification Tasks.”
[39]
386 W. J. Youden, “Index for rating diagnostic tests,” Cancer.
[40]
387 D. Opitz and R. Maclin, “Popular Ensemble Methods: An Empirical Study,” Journal of Artificial
388 Intelligence Research.
[41]
389 F. Pedregosa et al., “Scikit-learn: Machine learning in Python,” Journal of Machine Learning
390 Research.
[42]
391 J. Opitz, “A Closer Look at Classification Evaluation Metrics and a Critical Reflection of
392 Common Evaluation Practice,” Transactions of the Association for Computational Linguistics.
[43]
393 “Número de Strahler.”
[44]
394 “Market surveillance - Wikipedia,” [Link]
395 utm_source=[Link].
[45]
396 “Sentiment analysis.”
[46]
397 G. I. Parisi, R. Kemker, J. L. Part, C. Kanan, and S. Wermter, “Continual lifelong learning with
398 neural networks: A review,” Neural Networks.
399