統計検定 データサイエンス発展


出題範囲 (2024/8/30)

大項目 小項目 項目(学習しておくべき用語)
社会におけるデータAI 利活用 社会で起きている変化 ・ビッグデータ、IoT、AI、ロボット
・データ量の増加、計算機の処理性能の向上、AIの非連続的進化
・第4次産業革命、Society 5.0、データ駆動型社会
社会で活用されているデータ ・複数技術を組み合わせたAIサービス
・人間の知的活動とAIの関係性
・調査データ、実験データ、人の行動ログデータ、機械の稼働ログデータ
・1次データ、2次データ、データのメタ化
・構造化データ、非構造化データ(テキスト、画像/動画、音声/音楽)
・データ作成(ビッグデータとアノテーション)
データ・AIの活用領域 ・データ・AI活用領域の広がり(生産、消費、文化活動)
・研究開発、調達、製造、物流、販売、マーケティング、サービス
・仮説検証、知識発見、原因究明、計画策定、判断支援、活動代替、新規生成
・対話、コンテンツ生成、翻訳・要約・執筆支援、コーディング支援
データ・AI 利活用のための技術 ・データ解析:予測、グルーピング、パターン発見、最適化、シミュレーション・データ同化
・データ可視化:複合グラフ、2軸グラフ、多次元の可視化、関係性の可視化、地図上の可視化、挙動・軌跡の可視化、リアルタイム可視化
・非構造化データ処理:言語処理、画像/動画処理、音声/音楽処理
・特化型AIと汎用AI、今のAIで出来ることと出来ないこと、AIとビッグデータ
・認識技術、ルールベース、自動化技術
・マルチモーダル(画像、音声)、プロンプトエンジニアリング
データ・AI 利活用の現場 ・データサイエンスのサイクル(課題抽出と定式化、データの取得・管理・加工、探索的データ解析、データ解析と推論、結果の共有・伝達、課題解決に向けた提案)
・流通、製造、金融、サービス、インフラ、公共、ヘルスケア等におけるデータ・AI利活用
データ・AI 利活用の最新動向 ・AI等を活用した新しいビジネスモデル(シェアリングエコノミー、商品のレコメンデーション)
・AI最新技術の活用例(深層生成モデル、敵対的生成ネットワーク、生成AI、強化学習、転移学習)
・大規模言語モデル、基盤モデル、拡散モデル
データ・AI 利活用における留意事項 データ・AI を扱う上での留意事項 ・ELSI (Ethical, Legal and Social Issues)
・個人情報保護、EU一般データ保護規則(GDPR)、忘れられる権利、オプトアウト、知的財産、インフォームドコンセント
・データ倫理:データのねつ造、改ざん、盗用、プライバシー保護
・AI社会原則(公平性、説明責任、透明性、人間中心の判断)
・データバイアス、アルゴリズムバイアス、標本選択バイアス、帰納バイアス、公表バイアス
・AIサービスの責任論、データガバナンス
・データ・AI活用における負の事例
・ハルシネーション、偽情報、有害コンテンツの生成・氾濫
データを守る上での留意事項 ・情報セキュリティ:機密性、完全性、可用性
・匿名加工情報、暗号化、復号、パスワード、悪意ある情報搾取、不正アクセス行為の禁止、個人認証、ユーザ認証、アクセス制御、個人識別符号、要配慮個人情報、再識別、秘密の曝露や差別の誘引
・情報漏洩等によるセキュリティ事故
データリテラシー データを読む ・データの種類、データの分布と代表値、データのばらつき
・打ち切りや脱落を含むデータ、層別の必要なデータ、外れ値
・相関と因果(交絡、偏相関係数)、回帰(重回帰分析、ロジスティック回帰分析、モデルの評価)
・分類とグループ化(階層的クラスタリング、非階層的クラスタリング)
・クロス集計表、分割表、相関係数行列、散布図行列
・母集団と標本抽出(層別抽出、多段抽出、クラスター抽出、母数と統計量の区別、標本分布)
・統計情報の正しい理解(誇張表現に惑わされない)
データを説明する ・データの表現(散布図、ヒートマップ、チャート化)
・データの比較(条件をそろえた比較、処理の前後での比較、A/Bテスト、ランダム化比較試験)
・不適切なグラフ表現(チャートジャンク、不必要な視覚的要素)
・色の効果や特徴、点の色・大きさ・形状への配慮、線の太さと様々な破線
数理基礎 線形代数 ・平面ベクトル、空間ベクトル、次元ベクトル、ベクトルの和、内積、直交性、ノルム
・正方行列、単位行列、転置行列、対称行列、行列の積、逆行列、行列式
・線形独立、部分空間
微分積分 ・指数関数、対数関数、三角関数
・積の微分、合成関数の微分、関数の最大最小、線形近似、原始関数、積分と微分の関係
・偏微分、接平面、重積分、累次積分
数列 ・数列の和、∑記号、極限
デジタル情報とコンピュータの仕組み デジタル情報 ・数と表現(2進数の表現、論理値)
・情報量の単位(ビット、バイト、接頭語(k.M.G.T.m.µ.n.pなど)を使った表現)
・文字の表現(ASCII コード、シングルバイト文字、ダブルバイト文字)
・デジタル化(連続値、離散値)、画像・動画(ラスタデータ、ベクタデータ、コーデック)
コンピュータの仕組み ・集合、命題、真偽、否定、論理和、論理積
・有効数字、浮動小数点、仮数部、指数部、丸め誤差
アルゴリズム基礎 アルゴリズムの表現 ・フローチャート、アクティビティ図、端子、処理、判断、矢印
アルゴリズムの構造 ・代入、順次構造、選択構造、繰り返し構造
基本的なアルゴリズムの例 ・並べ替え(ソート)、探索(サーチ)、合計、併合
データ構造とプログラミング基礎
(主にPython)
データ構造 ・配列とリスト(メモリ、ベクトル、行列、アドレス)
・連想配列(キー、バリュー、連想、辞書、ハッシュ)
プログラミング基礎 ・インタープリタ言語(ソースコード、機械語、実行)
・構文(変数、代入、計算、分岐、繰り返し)、演算(オブジェクト、四則演算)
・関数(引数、返り値)、制御文(for, while, if文)、入出力(print文)
データハンドリング 代表的なデータ形式 ・csv、XML、JSON
その他のデータ形式 ・離散グラフ、キー・バリュー形式である隣接リスト、NoSQL
データベース ・データベース管理システム (DBMS)、リレーショナルデータベース、正規化、選択、射影、結合、SQL
データクレンジング ・表記の揺れの吸収(文字列、数字、日付、時刻)、名寄せ
データ加工 ・部分集合の抽出、行の並べ替え、新しい列の追加、プログラミング (Python, R)
データ取得とオープンデータ 日本や世界のオープンデータ ・二次利用可能なルール、機械判読への適性、オープンデータ憲章
オープンデータの取得 ・e-Gov データポータル、データカタログサイト、Open Knowledge Foundation、機械判読可能なデータの作成や表記方法、Web API
統計法 ・基幹統計調査、調査票情報の二次的利用
確率と確率分布 順列と組合せ ・階乗(n!)、順列(P)、組合せ(mCm)
確率分布の概念 ・確率変数、確率関数、確率密度関数、母平均、母分散、同時分布、周辺分布、共分散と相関、独立
主要な確率分布 ・ポアソン分布、指数分布、一様分布、正規分布、2変量正規分布
統計的推測 統計的モデル ・統計的モデル、母数、パラメータ
標本分布 ・独立同一分布、標本平均、標本分散
点推定 ・モーメント法、最尤法、バイアス、不偏推定量、平均二乗誤差、バイアス分散分解
仮説検定の考え方 ・帰無仮説、対立仮説、2種の誤り、有意水準、検出力、p値、検定統計量
種々のデータ解析 時系列データ解析 ・時系列データ (トレンド、周期、ノイズ)、季節調整、移動平均
テキスト解析 ・形態素解析、単語分割、n-gram、言語モデル、文章間類似度、かな漢字変換の概要
画像解析 ・画像データの処理、画像認識、画像分類、物体検出
データ活用実践 教師あり学習 ・教師あり学習による予測 (例: 売上予測、罹患予測、成約予測、離反予測)
・データの収集、加工、分析
・データ分析結果の共有、課題解決に向けた提案
教師なし学習 ・教師なし学習によるグルーピング (例: 顧客セグメンテーション、店舗クラスタリング)
・データの収集、加工、分析
・データ分析結果の共有、課題解決に向けた提案


リンク