おくみん公式ブログ

おくみん公式ブログ

Apache Hive PMCメンバーになりました

Hive PMCへの招待

先日XやLinkedInでご報告した通り、2025年12月8日にApache HiveのPMCメンバーに就任しました。

続きを読む

お手伝いさせていただいた『Apache Iceberg活用入門』が発売されました

先日『Apache Iceberg活用入門 オープンテーブルフォーマットによるデータレイク&データレイクハウス』が発売されました。これはオライリーから出版されている『Apache Iceberg: The Definitive Guide』を翻訳したものです。昨年蛯原さんからお誘いをいただき、私自身も年末年始にかけて日本語訳のレビューに参加していました。原著である『Apache Iceberg: The Definitive Guide』は紛れもない名著であり、その翻訳にレビュアーとして関わることができたことを光栄に思います。

また原著にはない章「Apache Hive SQLクエリエンジン」の執筆にも携わりました。これはApache Hiveをコンピュートエンジンやストレージエンジンとして使用するための機能群やその使い方をまとめたものです。原著では従来のデータレイクを構築するためによく使用されたHiveテーブルや、IcebergカタログとしてのHive Metastoreを説明するために「Hive」という固有名詞が50回以上登場しています。一方でクエリエンジンとしてのHiveはほぼ言及されていません。Hiveはいまや最も多くのIceberg関連機能を実装しているクエリエンジンの一つ*1です。せっかくなのでそれらを日本語版で紹介させてもらえないか提案してみたところ快諾していただき、佐野さんと協力して執筆・寄稿し、無事特別コンテンツとしてお届けすることができました。

HiveがカバーするIceberg関連機能

『Apache Iceberg活用入門』はデータウェアハウスとデータレイクの違いといった歴史的な洞察から始まり、Icebergの設計や機能、各種カタログの違いやハンズオン、本番利用時に考慮すべき運用上・セキュリティ上のポイントを幅広く紹介しています。またTrinoやHiveからIcebergテーブルを操作する方法やPyIcebergやIceberg Rustライブラリの使用方法、LINEヤフーでの活用事例といった日本語版限定コンテンツも充実しています。原著である「Apache Iceberg: The Definitive Guide」を読んだことのある方もない方も楽しめる内容となっているので、興味ある方はぜひ手に取ってみてください。

最後にこのような機会を与えてくださった蛯原さん佐野さん、サンプルを献本してくれたインプレス様、普段から仲良くしていただいているIceberg・OTFコミュニティの皆さまに感謝を申し上げます。ありがとうございました!

関連記事

オープンで洗練されたデータ基盤を構築したいなら『実践Apache Iceberg』

先日発売された『実践Apache Iceberg —— 高効率・高生産性を実現するオープンなデータ基盤の構築と運用』を献本していただいておりました。微力ながら宣伝に協力させていただきたいと思い、この記事を書いています。

『実践Apache Iceberg』が取り扱う内容は幅広く、データレイクアーキテクチャの説明やその課題、Apache Icebergの内部構造や機能の解説、Apache Spark、Apache Flink、Trino、Apache HiveからIcebergテーブルへアクセスする方法、PythonベースのCLIツールであるPyIceberg、現実に即したユースケースや運用方法の紹介、高度な最適化機能の解説を含みます。付録としてハンズオン用のDocker Compose設定ファイルも提供されており、サンドボックス環境で実際にコマンドを実行しながら学ぶことができます。現時点でのIceberg習熟度にかかわらず、誰にとっても読みどころのある一冊だと思います。個人的には第8章PyIceberg、第12章パフォーマンス最適化を興味深く読むことができました。

素晴らしい本を執筆し、またサンプルを送付してくれた田中さんとべりんぐ氏、技術評論社様に改めて感謝を申し上げます!

関連記事

Hive Iceberg Compaction: テーブル最適化の仕組みと実践

本記事はDmitriy Fingerman氏が2025年6月2日に公開した『Hive Iceberg Compaction: An In-Depth Look at Improving Table Performance』を、同氏のご厚意により許可を得て翻訳・掲載したものです。原文の内容・著作権は同氏に帰属します。誤訳等ございましたらお知らせください(X, Linkedin)。改めてDmitriy Fingerman氏の寛大なご協力に深く感謝いたします。

This article is an authorized translation of “Hive Iceberg Compaction: An In-Depth Look at Improving Table Performance” by Dmitriy Fingerman, published on June 2, 2025. It is reproduced here with the author’s kind permission. Copyright for the original text remains with Dmitriy Fingerman. If you spot any translation errors, please let me know(X, Linkedin). My sincere thanks to Dmitriy Fingerman for graciously allowing this translation.

Apache HiveはIcebergテーブルに対するコンパクション機能を提供しています。コンパクションはIcebergテーブルへのクエリ性能を向上させるように設計されており、merge-on-readモードでIcebergテーブルを扱う際に特に効果的です。この新機能はストレージの格納効率とクエリ時の性能を同時に最適化します。本記事では、その基本機能と様々なHive Iceberg Compaction実行方法について掘り下げ、クエリ性能にどのような影響があるのか実例を用いて解説します。

続きを読む

Apache HiveとIceberg: 2025年春

こうならないかな?と妄想中

4月某日、Hiveのメーリングリストに『HiveのデフォルトテーブルフォーマットをIcebergにしてはどうか』という提案が投稿されました。賛否はあるもののこの提案が現実的に思えるほど、HiveコミュニティはIcebergやData Lakehouseとのインテグレーションに多くのリソースを費やしています。

この記事では私が関わっているものを中心に、今後のリリースで追加されそうな面白機能を紹介していきます。

続きを読む

HiveのBucket Map JoinをIcebergテーブルでも使用できるようにした話

Bucket Map Join with Iceberg

現在HiveコミュニティはPartition-Aware Optimizationという機能の開発に取り組んでいます。これはOpen Table Formatが提供する柔軟なパーティショニングやストレージレイアウトを活用し、Apache Hiveの高度な最適化を有効化するための試みです。

この記事ではその一部であり、先日マージされた『[HIVE-28411] Bucket Map Join on Iceberg tables - ASF JIRA』について解説します。

続きを読む