Excelのデータが使えない理由

business documents on office table with smart phone and laptop computer and graph financial with social network diagram and three colleagues discussing data in the background

簡便なデータ分析ツールとしては最強だが

皆さんの周りにあって、通常のビジネスの中で最も使われる頻度が高いデータ分析ツールといえばMicrosoft Excelです。英語でSpreadsheetと呼ばれる表計算ソフトのカテゴリーでは競合のGoogle Sheets, LibreOffice Calc, Smartsheetを押しのけ 全世界でトップのシェアを誇ります。

Excelは経理や総務などの管理業務では欠かせない必須のツールであることは間違いありません。これを使っていないという会社はないといっても過言ではありません。デジタル化の必要性が叫ばれる以前から、Excelだけは誰でも使いこなすことができるビジネスの標準ソフトウェアでありました。

ここまでExcelが愛されている理由はユーザーが多いこと、関数やVBAなどに困った時に探すことができる情報が多いことなど、ネットワーク効果による利便性の他、初心者でも簡単に使いこなすことができる操作性や高度な統計解析機能まで備えている拡張性が挙げられます。

しかし、デジタルコンサルティングで私がプロセス自動化などの業務を依頼されたときに、真っ先に行うのがこのExcelの排除です。基本的にExcelのデータというのはデータを分析したりするにはとても使いやすく良いツールなのですが、データを蓄積するという観点からはあまり有用性が高くないです。なぜでしょうか?

という訳で、今日はExcelで蓄積したデータが使い物にならない理由を紹介したいと思います。

 

① 量が少ない・処理能力が低い

ExcelにはMacroなんかを使えば自動でデータを記入していくことは可能ですが、ほとんどの場合は手作業により入力されています。人が手作業により入力するデータですので、せいぜい数百行から数千行くらいしかデータが入っていないことが経験上は99%です。

しかも、一定の期間が過ぎると、今度は新しい要件が入ったという理由でそれまでのExcelが廃棄され、また新しい形式のExcelが用意されて、これに記入が始まります。そうして、データの連続性が保護されず、せいぜい数百行から数千行程度のデータしか入っていないことがほとんどです。

また、仮に十分なデータをスプレッドシートに格納できたとしても、処理能力が追い付いてきません。以下の記事の中で紹介されている限りでは、「Excelは6000行、LibreOffice CalcとGoogleスプレッドシートは150行を超えると実用に耐えないレベルで遅延しています」との結論が示されています。

 

 

② 構造化されていない

データの世界ではきれいに行と列が定義されているデータのことを「構造化されている(Structured)」と言います。機械学習の技術を用いる時にはデータが構造化されていることがとても重要なのですが、エクセルのデータは記載が自由なので、大体の場合において記録を続けているうちに、あーでもない、こーでもないとコメントが入ったりして列が崩れていきます。そのうち、セルの結合とかが始まり、構造がどんどん崩れていきます。年度もまたがる度に列が追加されて、過去のデータにはブランクの行が増えていき、メンテナンスすることも大変になっていきます。

データ可視化・分析が注目を集める昨今、「データ分析をしてほしい」との依頼を受けることもありますが、Excelでデータが出てくるたびにがっかりします。そして、そういうデータを受け取ると時間をかけてクリーニングする必要がありますが、これをやったところで大した量のデータは手に入らないという悲しい結末が待っているのです。

インサイトが全くないか?と言われるとそういう訳ではありません。ただ、データ分析は継続的に実施しながらインサイトを得ることが重要だと考えていますので、毎回データクリーニングをしなくていいように他のデータ蓄積方法を考えてほしいというのが正直なところです。

 

③ 間違っている

エクセルのデータは間違いが多い。①でも言った通り、手作業で入力されていることが多く、数字の桁が間違っていたりするのは日常茶飯事です。入力したタイミングもよくわからないし、修正しようにも誰が入力したのかわからない。桁数がおかしい、入力欄がおかしい、でも複数の人で管理していると誰が入力したのかよくわからないなどなど、その正確性を担保するにはExcelは不便なツールです。

入力規則を決めることによってある程度は正確性を担保することはできますが、例外事項というのは業務には付き物です。例外が発生するたびにコメントが入力されたり、列を増やしたりで、②の通りデータの形が崩れていきます。そして、入力のルールはセルやファイル自体がコピーされたりする中でどんどん破られていき、誰が入力したのか?正しいデータはなにか?トレースする記録も残っていません。

 

④ 勝手に増殖する

大問題なのは勝手に増えることです。Excelには変更を制限するためにセキュリティが掛かっていたりして、勝手に書式や様式を変更できないようにする機能もあります。これであれば、今までに書いた問題は起きないのでは?と言われそうですが、この場合でも皆さん勝手にファイルをコピーして自分の好きなように使い続けます。

その結果、最初は一つの書式で始まったはずのデータの蓄積が各部署で勝手にファイルがコピーされて、知らないうちにファイルが増えていきます。結果、各部署で勝手にデータが作成され始めて、気が付いた時には運用のルールはめちゃくちゃ、正確なデータはどれかわからないみたいな状況が発生します。

経験では、各部署で同じデータをメンテナンスするために、それぞれで工数が掛かっていたり、データの定義が勝手に変わり始めて、同じKPIを計算したのに、各部署でデータの定義が違うから結果も各部署で全然違うとかそんなことが起き始めます。

そして、「あれ?どのデータが正しいんだっけ?」みたいなことが起きてしまいます。

最後に

いかがだったでしょうか。

こういった問題は運用でカバーできるとか、Excelをよくわかってないからそんなことが起きるという反論もあると思いますが、世の中の人みんながExcelのプロって訳ではありませんし、運用のルールなどは一定の期間が過ぎると無視されていくものです。

柔軟で簡便なデータ分析ツールとしてのExcelの有用性に異論はありませんが、その柔軟性ゆえにデータを蓄積するという観点ではExcelは使用しない方がいいですね。