【ITパスポート練習問題 6.3対応】① データの種類及び前処理

本ページはPRが含まれています
正解数: 0/0 (0%)
データの種類及び前処理

ビジュアル表現と多様なデータ利活用が導く業務改善のヒントとは?

現代のビジネスシーンでは、組織内に蓄積される膨大な情報やSNSや調査企業が提供するデータをいかに扱うかが重要です。業務を正しく把握するビジュアル表現と、幅広い視点でデータを収集・分析する視点を組み合わせることで、問題の早期発見や新たな価値創造につながりやすくなります。

たとえば、調査データ実験データ人の行動ログデータ機械の稼働ログデータGISデータなど、様々な情報源を量的データ質的データの視点で分類する取り組みが挙げられます。

さらに、1次データ2次データメタデータの特徴を知り、構造化データ非構造化データを整理する手法も欠かせません。加えて、時系列データクロスセクションデータを分析する際は、データのサンプリング名寄せ外れ値・異常値・欠損値の処理アノテーションなどの前処理を活用することで、より精度の高い考察が可能になります。

的確な意思決定を進める上でデータの利活用は重要です。このような基礎力を高めることで就職・転職やキャリアアップの場面でも、データを活かした改善提案ができる人材への期待値は高いと言えます。

学習ポイントをチェック

  • なぜ多種多様なデータを区別する必要があるのか?
    データの特性に応じた分析設計を行い、業務改善につなげやすくするため
  • ビジュアル表現を用いる意義
    フローチャートやグラフを活用し、業務の流れや課題を一目で把握できるようにする
  • 前処理が重要視される理由
    外れ値や欠損値を適切に扱い、分析結果の信頼性と業務への応用度を高める
  • OR・IE手法の活用メリット
    既存の業務プロセスを多角的に見直し、生産性やコストの面で改善策を打ち出しやすくする

これらの視点を押さえておくことで、現場での課題を見つけやすくなり、データ活用に強い人材としての可能性も広がるでしょう。用語解説と練習問題に取り組み、理解をさらに深めてみてください。

全体のどこを学習しているのか把握しながら進めましょう。IPAシラバス原本PDFはこちら

このページは以下の「ITパスポート シラバス6.3」学習用コンテンツです。

◆大分類:1.企業と法務
◆中分類:1.企業活動

◆小分類◆見出し◆学習すべき用語
2.業務分析・データ利活用(3) データ利活用
① データの種類及び前処理
調査データ
実験データ
人の行動ログデータ
機械の稼働ログデータ
GISデータ
量的データ
質的データ
1次データ
2次データ
メタデータ
構造化データ
非構造化データ
時系列データ
クロスセクションデータ
【活用例】
データのサンプリング
データの名寄せ
データの外れ値・異常値・欠損値の処 理
アノテーション
データの季節調整・移動平均
見出し

調査データ

調査データとは特定の目的のために収集されたデータのことです。アンケート調査やインタビュー、観察などの方法で取得され、定量的または定性的な情報を含みます。

ビジネスや学術研究において、仮説検証や市場分析などに活用され、意思決定を支える重要な基盤となります。データ収集時にはバイアスの排除が重要です。

調査データに関する学習用問題

問題
調査データの特徴として適切なものはどれですか?

1 事前に加工されたデータを利用する
2 収集目的に応じて新たに取得される
3 常に政府機関から提供される公式データ

%%replace6%%

正解
2 収集目的に応じて新たに取得される

解説
調査データは特定の目的のために収集されるデータです。

選択肢1は誤りで、加工されたデータは二次データに該当します。選択肢3も誤りで、調査データは政府機関に限らず、企業や個人でも収集可能です。


問題
以下の中で調査データの例として最も適切なものはどれですか?

1 既存の政府統計資料
2 実験によって得られた測定結果
3 アンケート調査から収集された回答結果

%%replace6%%

正解
3 アンケート調査から収集された回答結果

解説
アンケート調査結果は調査データの代表例です。

選択肢1は二次データに該当し、選択肢2は実験データに分類されます。


実験データ

実験データは研究や試験の結果として得られるデータです。設定された条件下で計測や観察を行い、得られた数値や観察記録が含まれます。

科学的研究や製品開発において重要で、因果関係の検証や性能評価に利用されます。信頼性の高い結果を得るため、実験条件の管理が重要です。

実験データに関する学習用問題

問題
実験データの主な特徴として適切なものはどれですか?

1 自然環境下で偶然得られる
2 特定の条件下で収集される
3 常に大量のデータが必要である

%%replace6%%

正解
2 特定の条件下で収集される

解説
実験データは特定の条件下で実験や試験を行って得られるデータです。

選択肢1は観察データに該当し、選択肢3は用途によって異なるため誤りです。


問題
次のうち、実験データの活用例として適切なものはどれですか?

1 自然観察レポート
2 新製品の性能テスト結果
3 政府統計報告書の分析

%%replace6%%

正解
2 新製品の性能テスト結果

解説
新製品の性能テスト結果は特定の試験条件下で得られるため実験データに該当します。

選択肢1は観察データ、選択肢3は二次データに該当します。



人の行動ログデータ

人の行動ログデータとは個人の行動履歴を記録したデータのことです。オンライン上のクリック履歴、スマートフォンの位置情報、購買履歴などが含まれ、マーケティングやユーザー分析に活用されます。

プライバシー保護やデータの適切な管理が必要不可欠です。

人の行動ログデータに関する学習用問題

問題
人の行動ログデータの主な活用例として適切なものはどれですか?

1 ウェブサイト訪問者の閲覧履歴の分析
2 実験室での化学反応の測定値記録
3 統計データの公的機関からの収集

%%replace6%%

正解
1 ウェブサイト訪問者の閲覧履歴の分析

解説
ウェブサイトの訪問履歴は行動ログデータの代表例です。

選択肢2は実験データ、選択肢3は二次データに該当します。


問題
人の行動ログデータの管理において最も重要な点はどれですか?

1 データの公開範囲を広げる
2 データ形式を統一する
3 プライバシーの保護を徹底する

%%replace6%%

正解
3 プライバシーの保護を徹底する

解説
行動ログデータには個人情報が含まれるため、プライバシー保護が最優先されます。

選択肢1は公開範囲の拡大を意味し、選択肢2は管理上の工夫に過ぎません。


機械の稼働ログデータ

機械の稼働ログデータは機械や装置の稼働状況を記録するデータです。製造業やITインフラ管理において、保守点検や障害予測のために活用されます。

機械の動作記録を継続的に収集することで、運用効率の向上やコスト削減が可能です。

機械の稼働ログデータに関する学習用問題

問題
機械の稼働ログデータの活用例として最も適切なものはどれですか?

1 スマートフォンのユーザー位置情報の収集
2 工場の生産ラインの動作監視
3 市場調査のためのアンケート収集

%%replace6%%

正解
2 工場の生産ラインの動作監視

解説
工場の生産ラインの動作監視は、機械の稼働ログデータの典型的な用途です。

選択肢1は人の行動ログデータ、選択肢3は調査データに該当します。


問題
機械の稼働ログデータの利点として適切なものはどれですか?

1 機械の動作状況を自動的に記録できる
2 調査対象者の行動を追跡できる
3 データの収集が常に手作業で行われる

%%replace6%%

正解
1 機械の動作状況を自動的に記録できる

解説
機械の稼働ログデータは自動的な記録が可能なため、管理の効率化に役立ちます。

選択肢2は行動ログデータ、選択肢3は誤りです。


GISデータ

GIS(Geographic Information System)データは地理情報を扱うデータです。地図情報、位置情報、地形データなどが含まれ、都市計画、災害対策、物流管理などの分野で幅広く利用されます。

位置情報の可視化や地理的分析が可能で、社会インフラの発展に貢献します。

GISデータに関する学習用問題

問題
GISデータの活用例として最も適切なものはどれですか?

1 製品の市場シェア分析
2 配送ルートの最適化
3 機械の稼働状況の記録

%%replace6%%

正解
2 配送ルートの最適化

解説
配送ルートの最適化は位置情報を活用する代表的なGISデータの利用例です。

選択肢1は市場データ分析、選択肢3は稼働ログデータに該当します。


問題
GISデータの利点として適切なものはどれですか?

1 地理的な位置情報の分析が可能
2 調査対象者の詳細な行動がわかる
3 機械の動作記録を保存できる

%%replace6%%

正解
1 地理的な位置情報の分析が可能

解説
GISデータは地理的な情報の分析に特化しており、選択肢2は行動ログデータ、選択肢3は稼働ログデータに関連します。


量的データ

量的データとは数値で表現できるデータのことです。計測や数値集計が可能なため、統計分析や数値モデルの構築に適しています。身長や売上、温度など、物理的な量や規模を示すデータが該当します。

数学的な演算が可能で、平均値や標準偏差などの統計指標を計算できます。

量的データに関する学習用問題

問題
次のうち、量的データの例として最も適切なものはどれですか?

1 顧客の評価コメント
2 従業員の年齢
3 製品のブランド名

%%replace6%%

正解
2 従業員の年齢

解説
年齢は数値で表現でき、統計分析に利用できるため量的データです。

選択肢1と3は数値ではなく、質的データに分類されます。


問題
量的データに関する記述として適切なものはどれですか?

1 カテゴリや属性を表すデータ
2 質的分析に適したデータ
3 数値で計測可能なデータ

%%replace6%%

正解
3 数値で計測可能なデータ

解説
量的データは数値で計測可能で、統計的な処理に適しています。

選択肢1と2は質的データの特徴を示しています。


質的データ

質的データとは数値では表現できないデータで、カテゴリや属性を示します。例えば、製品の色、顧客の満足度、職業などが含まれます。

主に分類やグルーピング、頻度分析などで用いられ、数値計算には適しませんが、属性ごとの比較には有用です。

質的データに関する学習用問題

問題
次のうち、質的データの例として適切なものはどれですか?

1 製品の重量
2 従業員の名前
3 売上の増加率

%%replace6%%

正解
2 従業員の名前

解説
従業員の名前はカテゴリデータで、数値化できないため質的データに該当します。

選択肢1と3は数値で表される量的データです。


問題
質的データの特徴として最も適切なものはどれですか?

1 数値による計算が可能である
2 必ず測定機器が必要である
3 カテゴリや属性の分類に適する

%%replace6%%

正解
3 カテゴリや属性の分類に適する

解説
質的データは属性やカテゴリを示し、分類やグルーピングに適しています。

選択肢1は量的データの説明で、選択肢3はデータの種類には直接関係しません。


1次データ

1次データとは特定の目的のために自ら収集した生のデータです。アンケート結果や実験記録、観察データなどが含まれ、収集者が直接取得するため、精度と信頼性が高い特徴があります。

一方で、収集には手間とコストがかかります。

1次データに関する学習用問題

問題
1次データの主な利点として適切なものはどれですか?

1 収集コストが低い
2 必要な情報を直接得られる
3 常に公式機関から提供される

%%replace6%%

正解
2 必要な情報を直接得られる

解説
1次データは自ら収集するため、必要な情報を確実に得られます。

選択肢1は誤りで、収集にはコストがかかります。選択肢3は情報の出所が特定の機関に限定されているわけではありません。


問題
次のうち、1次データの例として最も適切なものはどれですか?

1 独自に実施したアンケートの結果
2 市販の統計データの購入
3 図書館で見つけた研究論文

%%replace6%%

正解
1 独自に実施したアンケートの結果

解説
自ら収集したアンケート結果は1次データに該当します。

選択肢2と3は既存の情報源から得た二次データです。


2次データ

2次データとは他者が収集・加工した既存のデータのことです。統計データ、企業の財務報告書、研究資料などが含まれ、収集コストが低い反面、目的に完全には合わない可能性があります。

必要な情報を素早く得られるため、初期の調査段階でよく活用されます。

2次データに関する学習用問題

問題
次のうち、2次データの例として最も適切なものはどれですか?

1 自社製品の販売実績データ
2 顧客との面談結果のメモ
3 政府が公表する統計資料

%%replace6%%

正解
3 政府が公表する統計資料

解説
公的な統計資料は他者が収集・公表したため、2次データに該当します。

選択肢1と2は自社や個人が収集する1次データです。


問題
2次データの主な利点として最も適切なものはどれですか?

1 常に最新の情報が得られる
2 収集にかかる手間が少ない
3 個別のニーズに完全に応えられる

%%replace6%%

正解
2 収集にかかる手間が少ない

解説
2次データは既に公開されたデータを利用するため、収集コストや手間を削減できます。

選択肢1は必ずしも最新ではなく、選択肢3は他者が収集しているため目的に合わない場合もあります。


メタデータ

メタデータとはデータの属性や構造に関する情報を表すデータです。ファイルの作成日時、著者名、ファイルサイズなどが該当します。データの管理や検索を効率化し、コンテンツの意味を明確にします。

たとえば、画像ファイルのメタデータには解像度や撮影日時が含まれ、データ利活用の基盤を支えます。

メタデータに関する学習用問題

問題
メタデータの役割として最も適切なものはどれですか?

1 データそのものの内容を直接表す
2 データの属性や構造を記述する
3 データの処理結果を保存する

%%replace6%%

正解
2 データの属性や構造を記述する

解説
メタデータはデータの属性や構造に関する情報を記述するため、データ管理や検索に役立ちます。

選択肢1はデータ本体、選択肢3は処理結果に関する記述であり誤りです。


問題
次のうち、メタデータに該当する情報はどれですか?

1 写真の撮影日時
2 写真に写っている風景の説明
3 写真の画質の劣化具合

%%replace6%%

正解
1 写真の撮影日時

解説
写真の撮影日時はデータの属性情報であり、メタデータに該当します。

選択肢2はデータ内容の説明、選択肢3は画質の状態でメタデータではありません。


構造化データ

構造化データとは特定のフォーマットや規則に従って整理されたデータのことです。データベースの表形式データが代表例で、行と列で構成され、容易に検索・集計できます。

製品管理システムの在庫リストや顧客管理システムの顧客情報など、企業運営に欠かせないデータ形式です。

構造化データに関する学習用問題

問題
構造化データの特徴として適切なものはどれですか?

1 自由な形式で保存される
2 表形式など決まった構造に従う
3 様々な形式のメディアデータを含む

%%replace6%%

正解
2 表形式など決まった構造に従う

解説
構造化データは決まった形式で保存されるため、検索や集計が容易です。

選択肢1は非構造化データ、選択肢3は主にマルチメディアデータに該当します。


問題
次のうち、構造化データの例として適切なものはどれですか?

1 顧客のインタビュー音声記録
2 SNS投稿のテキスト内容
3 製品在庫を管理するデータベースの表

%%replace6%%

正解
3 製品在庫を管理するデータベースの表

解説
データベースの表形式は典型的な構造化データです。

選択肢1と2は非構造化データに該当し、データ構造が固定されていません。


非構造化データ

非構造化データとは決まった形式を持たず、データベースのような整理された形で保存されないデータのことです。テキスト、画像、音声、動画などが含まれ、ビッグデータ解析やAI処理で多く利用されます。

構造化データとは異なり、データの検索や管理には特別な処理が必要です。

非構造化データに関する学習用問題

問題
非構造化データの例として最も適切なものはどれですか?

1 商品在庫管理データベース
2 SNS投稿のテキスト内容
3 売上記録の月次報告表

%%replace6%%

正解
2 SNS投稿のテキスト内容

解説
SNSの投稿内容は特定の形式がなく自由な記述が可能なため、非構造化データです。

選択肢1と3は構造化データに該当します。


問題
非構造化データの管理に必要な技術として適切なものはどれですか?

1 関係データベース管理システム
2 テキストマイニングや画像認識技術
3 表計算ソフト

%%replace6%%

正解
2 テキストマイニングや画像認識技術

解説
非構造化データの管理にはテキストマイニングや画像認識技術が必要です。

選択肢1は構造化データ向けの技術、選択肢3は管理の範囲が限定されるため誤りです。


時系列データ

時系列データとは時間の経過に伴って変化するデータを指します。株価の変動、気温の推移、センサーの記録データなどが含まれます。

時間の順序が重要で、トレンド分析、予測、異常検知などに広く活用されます。統計的手法や機械学習モデルを用いて分析されることが多いです。

時系列データに関する学習用問題

問題
時系列データの特徴として適切なものはどれですか?

1 特定の時間に依存しないデータ
2 地理的な位置情報を含むデータ
3 時間の順序に従って記録されるデータ

%%replace6%%

正解
3 時間の順序に従って記録されるデータ

解説
時系列データは時間の順序が重要で過去から未来に向かって記録されるため、予測や分析に適しています。

選択肢1は誤りで、選択肢2はGISデータの特徴です。


問題
次のうち、時系列データの例として最も適切なものはどれですか?

1 製品の型番リスト
2 毎日の気温記録
3 顧客の氏名一覧

%%replace6%%

正解
2 毎日の気温記録

解説
気温の記録は日付とともに変化するため時系列データです。

選択肢1と3は時間と関連しないリストデータです。


クロスセクションデータ

クロスセクションデータとは特定の時点において、複数の対象に関するデータを収集したものです。例えば、ある年の国ごとのGDP、顧客ごとの購買履歴などが該当します。

時間の変化を追うのではなく、一時点での比較や分析に適しています。

クロスセクションデータに関する学習用問題

問題
次のうち、クロスセクションデータの特徴として適切なものはどれですか?

1 時間の推移に沿ってデータが記録される
2 連続するデータが収集される
3 特定の時点での多くの対象を比較する

%%replace6%%

正解
3 特定の時点での多くの対象を比較する

解説
クロスセクションデータは特定の時点における複数の対象のデータを比較するために収集されます。

選択肢1と2は時系列データの説明です。


問題
次のうち、クロスセクションデータの例として最も適切なものはどれですか?

1 毎月の売上推移
2 ある日付の各店舗の売上額一覧
3 温度センサーの連続測定データ

%%replace6%%

正解
2 ある日付の各店舗の売上額一覧

解説
店舗ごとの売上額は特定の時点におけるデータであり、クロスセクションデータです。

選択肢1と3は時間的な変化を示す時系列データです。


データのサンプリング

データのサンプリングとは全体のデータ集合から一部を選び出す作業を指します。調査や分析に必要な範囲を効率的に把握するために行われ、ランダムサンプリング、層別サンプリングなどの手法があります。

適切なサンプリングにより、調査結果の信頼性が向上します。

データのサンプリングに関する学習用問題

問題
データのサンプリングの目的として最も適切なものはどれですか?

1 全データの内容をそのまま記録する
2 データのすべてを収集する必要を無くす
3 データの一部を抜き出して効率的に分析する

%%replace6%%

正解
3 データの一部を抜き出して効率的に分析する

解説
サンプリングは全データを収集せずに一部を抽出することで、コストや時間を節約しながら分析の精度を確保するために行われます。選択肢1と2は誤った説明です。


問題
次のうち、適切なサンプリング手法として最も基本的なものはどれですか?

1 データの一部を無作為に抽出する
2 偶然に選ばれたデータを除外する
3 データをすべて手作業で収集する

%%replace6%%

正解
1 データの一部を無作為に抽出する

解説
無作為抽出は偏りのないサンプリング手法の基本です。選択肢2はデータの除外に関する説明で、選択肢3はサンプリングの効率性を欠く方法です。


データの名寄せ

データの名寄せとは異なるデータソースから集めたデータを統合し、重複や不一致を解消する作業です。同一人物や同一企業に関するデータを一つにまとめることで、データの正確性や一貫性が向上します。

顧客管理システムやマーケティング施策で広く利用され、効果的なデータ活用に欠かせません。

データの名寄せに関する学習用問題

問題
データの名寄せの目的として最も適切なものはどれですか?

1 データの一部をランダムに削除する
2 重複データを統合し、データの整合性を高める
3 データのすべてを暗号化する

%%replace6%%

正解
2 重複データを統合し、データの整合性を高める

解説
データの名寄せは重複するデータや不一致を解消し、正確なデータ管理を目指します。

選択肢1は誤りで、選択肢3はセキュリティ管理の話題です。


問題
次のうち、データの名寄せが必要な場面として最も適切なものはどれですか?

1 顧客の情報が異なるデータベース間で重複している場合
2 機械の動作ログを記録する際
3 天候データの予測を行う場合

%%replace6%%

正解
1 顧客の情報が異なるデータベース間で重複している場合

解説
異なるデータベース間で重複する顧客情報の統合は、データの名寄せの典型的な用途です。

選択肢2と3は名寄せと直接関係がありません。


データの外れ値・異常値・欠損値の処理

データの外れ値・異常値・欠損値の処理とは、データ分析において信頼性を向上させるための前処理です。

外れ値は通常の範囲から外れた値、異常値は明らかに誤った値、欠損値はデータが存在しない部分を指します。これらのデータは削除、補完、修正などの処理が行われます。

データの外れ値・異常値・欠損値の処理に関する学習用問題

問題
データの外れ値処理において適切な方法はどれですか?

1 外れ値をそのまま残して分析を進める
2 すべてのデータをランダムに変更する
3 明らかに不自然な値を除去する

%%replace6%%

正解
3 明らかに不自然な値を除去する

解説
外れ値の処理では分析結果に悪影響を与える不自然な値を除去するのが基本です。

選択肢1は分析の精度を低下させ、選択肢2は無意味な変更を示します。


問題
次のうち、データの欠損値処理の例として適切なものはどれですか?

1 欠損値をすべて0にする
2 欠損値の行全体を削除する
3 欠損値の存在を無視する

%%replace6%%

正解
2 欠損値の行全体を削除する

解説
欠損値が多い場合、行全体を削除するのは有効な方法の一つです。

選択肢1は適切な補完手法ではなく、選択肢3は分析結果に悪影響を及ぼす可能性があります。


アノテーション

アノテーションとはデータに対して補足情報やラベルを付ける作業です。画像認識、テキスト分析、音声認識などの分野で、AIモデルの学習用データを作成する際に重要な工程です。

ラベル付けの精度がAIモデルの性能に大きく影響します。

アノテーションに関する学習用問題

問題
アノテーションの主な目的として最も適切なものはどれですか?

1 データに意味付けやラベルを追加する
2 データの保存形式を変更する
3 データのセキュリティを強化する

%%replace6%%

正解
1 データに意味付けやラベルを追加する

解説
アノテーションはデータに意味を持たせるためのラベル付けを行い、AIモデルの学習を支援します。

選択肢2は保存形式の変更、選択肢3はセキュリティ対策に関する内容です。


問題
次のうち、アノテーションが必要な場面として最も適切なものはどれですか?

1 ネットワークの接続速度を計測する場合
2 AIモデルに画像認識のデータを提供する場合
3 統計データの平均値を求める場合

%%replace6%%

正解
2 AIモデルに画像認識のデータを提供する場合

解説
画像認識用のデータでは、物体や特徴にラベルを付けるアノテーションが必要です。

選択肢1と3はアノテーションの用途とは異なります。


データの季節調整・移動平均

データの季節調整とは特定の時期に発生する周期的な変動要因を除去する統計処理です。販売データや気温データなどに用いられ、長期的な傾向を明確にする目的があります。

一方、移動平均はデータの変動を滑らかにする方法で、一定期間の平均値を算出して変動のトレンドを捉えます。

データの季節調整・移動平均に関する学習用問題

問題
データの季節調整を行う主な目的として適切なものはどれですか?

1 データのすべてを削除する
2 短期的な変動要因を強調する
3 一定の周期で発生する変動を取り除く

%%replace6%%

正解
3 一定の周期で発生する変動を取り除く

解説
季節調整は季節要因による変動を取り除き、データの本質的なトレンドを明らかにするために行います。

選択肢1と2は誤りです。


問題
移動平均の利点として最も適切なものはどれですか?

1 データの詳細な変動を見つけやすくする
2 データの変動を滑らかにし、トレンドを捉えやすくする
3 データの標準偏差を計算する

%%replace6%%

正解
2 データの変動を滑らかにし、トレンドを捉えやすくする

解説
移動平均はデータの変動を滑らかにし、全体の傾向を明らかにするための手法です。

選択肢1は短期的な変動が見えにくくなるため誤りで、選択肢3は移動平均とは関係ありません。


見出し