【第34回】データサイエンスを知らない人はヤバいですよ!

【データサイエンスを知らない人は
 ヤバいですよ!】

まずそもそもとして、
データサイエンティスト必須スキル
知っていますか?

データサイエンティスト協会
2015年に発表した

『データサイエンティストに必要と
 されるスキルチェックリスト』

には、行動規範として

「データを取り扱う人間として
 相応しい倫理を身に着けている
(データのねつ造、改ざん、
 盗用を行わないなど)」

と書かれています。

協会は、
これはデータサイエンティストの必須スキルで、
かつ見習いレベルでも守らなければないと定義
しています。

2018年末から報道され、
2019年に入り一気に社会問題化した厚生労働省の
「毎月勤労統計」をめぐる統計偽装問題
このチェックリストに照らし合わせてみると、

厚労省の統計担当者がこの行動規範を
全く守っていない「見習いレベル以下」
だったことになりますよね。

また、

この問題を通じて
「データなんて簡単に操作できる」
というイメージが広まってしまいました。

これは、厚労省が作成する統計で、
不正が行われていたことが明らかに
なったというものです。

今回の問題を受け、
日本統計学会日本経済学会も声明を出し、
危機感をあらわにしました。

オープンデータに取り組んだり
データが重要だと個人情報保護法を
改正したり
と、

国をあげて統計の重要性を押し出して
いたのに、蓋を開けてみれば

「言ってることと、
 やっていることが全然違う」

というお粗末な現実でした。笑

この厚労省の統計偽装問題から
AI業界でも教訓を得られるものが
あります。

AI時代において、
間違ったデータバイアスのかかった
データ
AIに学習させることの問題は、

2018年に米AmazonのAI採用システム
おいて「女性差別」問題が浮き彫りに
なったことからも注目を浴びましたね。

政府は国内でのAI活用を推進するものの、
基となるデータの信頼性が脅かされる状態では、

「どのようにAIを活用するのか」

議論する段階にすら無理でしょう。

統計は専門的な分野としてあまりピンと
こない方も多い
かもしれませんが、

今回の事件を機に

“データを見る目”

養うことは、今後のデータ社会を生きる上で
決して無駄にはなりません

一体、なぜこのような大きな問題
起きてしまったのか?

データを扱うことの難しさ
本質はどこにあるのか?

【政府ですら行う統計偽装の闇】

統計偽装問題で不正が指摘されたのは、
厚労省が作成している

「毎月勤労統計調査」

という、賃金労働時間に関する統計です。

毎月勤労統計調査偽装問題のポイント
簡単に説明すると、

(1)毎月勤労統計調査において、常用労働者数500人以上の
 事業所を全数調査すべきところを、2004年から東京都で
 一部の事業所を調査(調査先数3分の1)へ無断で変更

(2)2018年1月に突然、復元処理をしたことから、
 賃金の伸び率が過大になった
 (適切なデータ補正をしなかった)

(3)1996年から全国3万3000事業所を調査すべき
 なのに3万事業者しか調査していなかった

などが挙げられます。

これによって、失業保険労災保険などの
社会保障費の過少給付という実害が生じて、
約1973万人もの人に影響がありました。

追加給付等(約570億円)のためのシステム費用
などを含める
と、総額で約800億円が必要
なる計算です。

偽装した上に、これだけの出費を出すなんて
ヤバいですよね。

偽装の影響は、間違ったデータを使うことで、
政府が政策の判断を間違えてしまう可能性
生み出します。

2019年10月に消費税はあがりましたが、
統計は実質賃金が上がっているか下がっているか
という傾向の判断にも使われているわけです。

そして、

税率が上がればその分だけ消費は減りますよね。

さらに、
世帯所得の平均に満たない世帯の可処分所得
増えないと、 家計の消費全体が盛り上がっては
きません

という風に、偽装一つとっても絶大な影響を
及ぼす
場合もありますよね。

統計を扱う上で、一番大事なのは

「真実性」

です。

データは正確に作る必要がありますが、
データを作る側利用する側明確に
分けないといけません

使われ方を気にしてデータを作り始めると、
データがゆがんでしまいます

大手メーカーメディアがよくやる手法ですね。笑

統計偽装の問題は色々とあります。

・2004年から一部抽出調査
 切り替えたキッカケも不明

・なぜ、ローテーション・サンプリング(※)
 に切り替えたのか経緯も不明
※毎年3分の1の標本を入れ替える方式

などなど…。

真実性中立性に問題が無かったのかが
極めて重要なポイントということですね。

↓ ↓ ↓

公式LINEにてAIの最新情報を無料でお届けしています!
メッセージをいただければ個別相談も可能です。
【Shannon Lab公式LINE】登録はこちら↓
https://lin.ee/51AvzBZ
ID検索はこちら→@wcl3002n

※この記事は過去に配信した以下メルマガを基にしています
 2019年12月3日
 2019年12月13日