2025-12-31

Apache Hive PMCメンバーになりました

先日XやLinkedInでご報告した通り、2025年12月8日にApache HiveのPMCメンバーに就任しました。

I’m honored to announce my appointment as an @ApacheHive PMC (Project Management Committee) member. It is an exciting opportunity to help shape the future of Apache Hive in this new role.
A huge thank you to everyone who has supported me!https://t.co/Z6LGGNcBVi #ApacheHive
— おくみん (@okumin) December 8, 2025

2025-11-13

お手伝いさせていただいた『Apache Iceberg活用入門』が発売されました

Hadoop ビッグデータ

Apache Iceberg活用入門　オープンテーブルフォーマットによるデータレイク＆データレイクハウス

作者:Tomer Shiran,Jason Hughes,Alex Merced
インプレス

Amazon

先日『Apache Iceberg活用入門　オープンテーブルフォーマットによるデータレイク＆データレイクハウス』が発売されました。これはオライリーから出版されている『Apache Iceberg: The Definitive Guide』を翻訳したものです。昨年蛯原さんからお誘いをいただき、私自身も年末年始にかけて日本語訳のレビューに参加していました。原著である『Apache Iceberg: The Definitive Guide』は紛れもない名著であり、その翻訳にレビュアーとして関わることができたことを光栄に思います。

『Apache Iceberg活用入門』届きました！蛯原さん( @ebyhr )、佐野さん( @IQ_Bocchi )、インプレス様、献本ありがとうございます。
私も翻訳レビューを行い、また日本語限定コンテンツ「Apache Hive SQLクエリエンジン」の章を佐野さんと共著・寄稿させていただきました。
興味ある方はぜひ！ https://t.co/ehpHwQTZ2l pic.twitter.com/ApfBcTzkyE
— おくみん (@okumin) November 7, 2025

また原著にはない章「Apache Hive SQLクエリエンジン」の執筆にも携わりました。これはApache Hiveをコンピュートエンジンやストレージエンジンとして使用するための機能群やその使い方をまとめたものです。原著では従来のデータレイクを構築するためによく使用されたHiveテーブルや、IcebergカタログとしてのHive Metastoreを説明するために「Hive」という固有名詞が50回以上登場しています。一方でクエリエンジンとしてのHiveはほぼ言及されていません。Hiveはいまや最も多くのIceberg関連機能を実装しているクエリエンジンの一つ*1です。せっかくなのでそれらを日本語版で紹介させてもらえないか提案してみたところ快諾していただき、佐野さんと協力して執筆・寄稿し、無事特別コンテンツとしてお届けすることができました。

『Apache Iceberg活用入門』はデータウェアハウスとデータレイクの違いといった歴史的な洞察から始まり、Icebergの設計や機能、各種カタログの違いやハンズオン、本番利用時に考慮すべき運用上・セキュリティ上のポイントを幅広く紹介しています。またTrinoやHiveからIcebergテーブルを操作する方法やPyIcebergやIceberg Rustライブラリの使用方法、LINEヤフーでの活用事例といった日本語版限定コンテンツも充実しています。原著である「Apache Iceberg: The Definitive Guide」を読んだことのある方もない方も楽しめる内容となっているので、興味ある方はぜひ手に取ってみてください。

最後にこのような機会を与えてくださった蛯原さん佐野さん、サンプルを献本してくれたインプレス様、普段から仲良くしていただいているIceberg・OTFコミュニティの皆さまに感謝を申し上げます。ありがとうございました！

Apache Iceberg活用入門　オープンテーブルフォーマットによるデータレイク＆データレイクハウス

作者:Tomer Shiran,Jason Hughes,Alex Merced
インプレス

Amazon

ランキング参加中

プログラミング

*1:二番目(おそらくApache Sparkの次)に豊富な機能群を実装しているという意見があります

2025-11-03

オープンで洗練されたデータ基盤を構築したいなら『実践Apache Iceberg』

Hadoop ビッグデータ書評

実践Apache Iceberg —— 高効率・高生産性を実現するオープンなデータ基盤の構築と運用エンジニア選書

作者:田中智大,疋田宗太郎
技術評論社

Amazon

先日発売された『実践Apache Iceberg —— 高効率・高生産性を実現するオープンなデータ基盤の構築と運用』を献本していただいておりました。微力ながら宣伝に協力させていただきたいと思い、この記事を書いています。

『実践Apache Iceberg』が取り扱う内容は幅広く、データレイクアーキテクチャの説明やその課題、Apache Icebergの内部構造や機能の解説、Apache Spark、Apache Flink、Trino、Apache HiveからIcebergテーブルへアクセスする方法、PythonベースのCLIツールであるPyIceberg、現実に即したユースケースや運用方法の紹介、高度な最適化機能の解説を含みます。付録としてハンズオン用のDocker Compose設定ファイルも提供されており、サンドボックス環境で実際にコマンドを実行しながら学ぶことができます。現時点でのIceberg習熟度にかかわらず、誰にとっても読みどころのある一冊だと思います。個人的には第8章PyIceberg、第12章パフォーマンス最適化を興味深く読むことができました。

素晴らしい本を執筆し、またサンプルを送付してくれた田中さんとべりんぐ氏、技術評論社様に改めて感謝を申し上げます！

実践Apache Iceberg —— 高効率・高生産性を実現するオープンなデータ基盤の構築と運用エンジニア選書

作者:田中智大,疋田宗太郎
技術評論社

Amazon

ランキング参加中

プログラミング

2025-06-29

Claude Codeにokumin.comを作り直してもらった話

「Claude Codeのコーディング能力は凄いらしい」と最近よく耳にします。最新の生成AIを使った開発体験がどのようなものか試すべく、Maxプランを契約して自作ホムペokumin.comの改善を依頼してみることにしました。

2025-06-16

Hive Iceberg Compaction: テーブル最適化の仕組みと実践

Hadoop ビッグデータ

本記事はDmitriy Fingerman氏が2025年6月2日に公開した『Hive Iceberg Compaction: An In-Depth Look at Improving Table Performance』を、同氏のご厚意により許可を得て翻訳・掲載したものです。原文の内容・著作権は同氏に帰属します。誤訳等ございましたらお知らせください(X, Linkedin)。改めてDmitriy Fingerman氏の寛大なご協力に深く感謝いたします。

This article is an authorized translation of “Hive Iceberg Compaction: An In-Depth Look at Improving Table Performance” by Dmitriy Fingerman, published on June 2, 2025. It is reproduced here with the author’s kind permission. Copyright for the original text remains with Dmitriy Fingerman. If you spot any translation errors, please let me know(X, Linkedin). My sincere thanks to Dmitriy Fingerman for graciously allowing this translation.

Apache HiveはIcebergテーブルに対するコンパクション機能を提供しています。コンパクションはIcebergテーブルへのクエリ性能を向上させるように設計されており、merge-on-readモードでIcebergテーブルを扱う際に特に効果的です。この新機能はストレージの格納効率とクエリ時の性能を同時に最適化します。本記事では、その基本機能と様々なHive Iceberg Compaction実行方法について掘り下げ、クエリ性能にどのような影響があるのか実例を用いて解説します。

2025-05-30

Apache HiveとIceberg: 2025年春

Hadoop ビッグデータ

4月某日、Hiveのメーリングリストに『HiveのデフォルトテーブルフォーマットをIcebergにしてはどうか』という提案が投稿されました。賛否はあるもののこの提案が現実的に思えるほど、HiveコミュニティはIcebergやData Lakehouseとのインテグレーションに多くのリソースを費やしています。

この記事では私が関わっているものを中心に、今後のリリースで追加されそうな面白機能を紹介していきます。

2025-03-18

HiveのBucket Map JoinをIcebergテーブルでも使用できるようにした話

Hadoop ビッグデータ

現在HiveコミュニティはPartition-Aware Optimizationという機能の開発に取り組んでいます。これはOpen Table Formatが提供する柔軟なパーティショニングやストレージレイアウトを活用し、Apache Hiveの高度な最適化を有効化するための試みです。

この記事ではその一部であり、先日マージされた『[HIVE-28411] Bucket Map Join on Iceberg tables - ASF JIRA』について解説します。

おくみん公式ブログ

おくみん公式ブログ

Apache Hive PMCメンバーになりました

お手伝いさせていただいた『Apache Iceberg活用入門』が発売されました

関連記事

オープンで洗練されたデータ基盤を構築したいなら『実践Apache Iceberg』

関連記事

Claude Codeにokumin.comを作り直してもらった話

Hive Iceberg Compaction: テーブル最適化の仕組みと実践

Apache HiveとIceberg: 2025年春

HiveのBucket Map JoinをIcebergテーブルでも使用できるようにした話