-
Notifications
You must be signed in to change notification settings - Fork 4
Closed
Description
イントロダクション 10:00 ~ 10:10 (講師 大橋、サブ講師 小川)
- Slide https://docs.google.com/presentation/d/1-J3urYC6e3IY30xduhTDnBEWphTbcJ2CRvHhV6fwNBw/edit?usp=sharing
- 全体の流れ(スケジュール紹介)
- 各コースの概要
- どのくらいの詳しさで各コースに何分ほど使うか
- 用いる環境・ソフトウェアの概要
- Google Colabの使い方
- pandas, plotly, dash, scikit-learn, streamlit, pydeckを使う (NumFOCUSの紹介)
貿易収支データの分析 10:10 ~12:10 (講師 小川・吉岡、サブ講師 西田・大橋・kaisen) (小川60分/ 吉岡60分)
- データ・ソフトウェアの紹介(出典説明)
- 紹介前に必要ライブラリのインストール・データの読み込み
- 本日やること
- データの紹介
- ダウンロードされたデータの確認
- データ読み込み
- sqlite3を使って、データベースのテーブルを調べる
- 課題2 ほかのデータベースのテーブルを調べ、テーブル名を格納する (5分)
- テーブルを読み込む
- 全て読み込み (国コードデータ)
- sqlコマンドで操作しての読み込み (各国の輸出入データ)
- 課題3 日本の各年の輸出入データを作成する
- テーブルの前処理を行う
- mapで輸出入、関数を作成して国名の割り当て
- plotlyで可視化
- PlotlyExpress
- 基本的な使い方
- 韓国の輸出入の可視化
- 全データを使って、treemapの作成
- 課題4 グラフを作ってみる (10分) - PlotlyExpressの限界
- PlotlyExpress
- Plotly Graph Objects
- 基本的な使い方の解説
- pxでできなかったことをやる
- 複数のグラフを並べて表示
- dashで可視化
- dashの基本構造 コンポーネント、レイアウト、コールバック
- コンポーネントとレイアウト
- コールバック
- パターンマッチングコールバック
- 機械学習(クラスタリング)
- ハンズオン
家計調査データの分析 13:00 ~ 15:00 (講師 西田・吉岡、サブ講師 小川・大橋・kaisen)
- 支出の費目毎の分布の違いを可視化する (講義30分 演習30分)
- 「統計センター 一般用ミクロデータ 全国消費実態調査」の紹介
- 一般用ミクロデータのフォーマットの確認 (pandasを使わずに)
- pandasを使ったデータの読み込みと整形
- joypy, plotly, dashを使った支出の分布の可視化
- joypyで静的なridgeline plot
- plotlyでインタラクティブなヒストグラム
- dashでダッシュボードの作成
- 「統計センター 一般用ミクロデータ 全国消費実態調査」の紹介
- 支出情報から機械学習で世帯の属性情報を予測する (講義30分 演習30分)
- 教師あり学習の紹介
- scikit-learnの複数の分類機を用いた予測
- 2値分類
- 他クラス分類
地理データの可視化 15:00 ~ 17:00 (講師 kaisen、サブ講師 小川・西田)
1. 大阪の平均路線価の可視化 (40min)
- データ・ソフトウェアの紹介(出典説明) (10min)
- binderの使い方 (10min)
- binderの説明 (5min)
- mapbox api key のセットの仕方 (5min)
- データ前処理 (15min)
- データ読み込み (5min)
- geopandasを用いた大阪の地価(shp)の読み込み
- CRSから緯度経度情報の変換 (5min)
- 緯度および経度のデータが入ったカラムの作成 (5min)
- データ読み込み (5min)
- pydeckで可視化 (15min)
- GridCellLayerを使う (0min)
- パラメタの説明 (10min)
- パラメタやレイヤを変更してようすを見てみる (5min)
2. 平均路線価と自転車盗難数の可視化 (25min)
- データの紹介 (5min)
- データ前処理 (10min)
- pydeckで可視化(発展版)(10min)
- multi layer
- GridCellLayerを使う
- ScreenGridLayerを使う
- 複数データタイプの組み合わせ
- 路線価データと自転車盗難数データ
- multi layer
3. 平均路線価の可視化と自転車盗難数データのより正確な可視化 (25min)
- データの紹介 (5min)
- データ前処理 (10min)
- pydeckで可視化(発展版)(10min)
- GridCellLayerを使う
- PolygonLayerを使う
4. Streamlitでアプリケーション化 (10min)
- streamlitでアプリ化 ※binderで使えない場合はローカルのPCでやってみる -> GAE上にデプロイしたものがあるので、チャットでURLを教えて手元で使ってもらう
- plotの透明度を変化させて見やすいグラフを探る
- レイヤーをつけたり(?)消したりして見やすいグラフを探る
5. 課題(ハンズオン) (20min)
- 参加者が地理データ活用をしてくれることを期待するような流れに
- 自分が調べたいデータを探し、当日やったことをひと通りやってみる
- データを探すコツとして、緯度と経度があるデータを探すことを勧める。
- 他に、市町村コードというコードがついていると、ESRI社が提供している全国市区町村界データと組み合わせることで階級区分図を作成することができるということを伝える。
- 時間があれば実際に手を動かしてみてもらう
Metadata
Metadata
Assignees
Labels
No labels