国会図書館のデジタル化作業の虚しさ
こんな記事を見た。
特撮ではない。国会図書館デジタル化スキャナー部隊前線基地の威容を見よ。これが国家戦略の本気である。(「国立国会図書館月報」2022年5月刊733号より) pic.twitter.com/qx7ybsE5dI
— TAQUENACA, Aquirax (@aquirax01) May 21, 2022
国会図書館の月報で、国会図書館内にある書籍のデジタル化の取り組みが紹介されていた。これを見た人たちの反応は概ね、「神様!」「ありがとう!」というものだ。私はとてもそうは思えなかった。なぜなら、これは「しなくていい苦労」だからだ。
本を1ページ、1ページ、手作業でスキャンしてデジタル画像データにする。それを更にOCRを使ってデジタルテキストデータにする。特にページを開いてスキャンしてデジタル画像にする作業はとても大変で、ほんの少しでもぶれると文字を読み取れなくなる。かと言って叮嚀にやっているといつまで経っても終わらない。スピードと叮嚀さを両立した熟練の技が必要になると言う。
だが。あなた方が目指しているゴールはスタート地点だ。
先日、知人が本を出版した。日本で出版した本なので国会図書館に収められるわけだが、その工程を以下に書く。括弧内は、その時点で文章がデジタルだったか紙だったかの状態を表している。
彼はPCで執筆(デジタル)
↓
書き上がった原稿をメールに添付して出版社に送る(デジタル)
↓
出版社の方で編輯・校正を行う(デジタル)
↓
出版社から印刷業者に送り、印刷業者が紙に印刷(紙)
↓
印刷業者から製本業者に送り、製本業者が紙の本を完成させる(紙)
↓
出版社が出来上がった本を国会図書館に納本する(紙)
↓
国会図書館が紙の本をスキャンしてデジタル画像データにする(デジタル)
↓
国会図書館がデジタル画像データをデジタルテキストデータにする(デジタル)
これが一連の流れだ。デジタル画像データにしただけでは検索ができないので、国会図書館の最終的な目標はデジタルテキストデータにすることだ。だが、デジタルテキストデータとはどういう状態かと言うと、著者がいちばん最初にこの世に文章を生み出した瞬間がデジタルテキストデータだ。その最初の瞬間に戻しましょうと言っているのだ。この無駄な大回り、虚しくならないのだろうか。
地雷の除去作業をしている人が、いかに地雷の除去が大変なことかを語っている。しかし私は地雷の除去作業よりも、その隣でせっせと地雷を埋めている人の方が気になる。彼らのことを見て見ぬふりをして、地雷除去作業に携わろうという気には私はならない。
国会図書館職員は、本のデジタル化がいかに大変なことか、いかに大きな苦労が伴うかを語る。私も月報を読んだが確かに大変な作業、大変な苦労だと思う。それは分かる。だがあなた方が大変な苦労をしてデジタル化作業に取り組んでいるこの瞬間にも次々と紙の本が生まれている。あなた方の仕事は永遠に終わらない。
「わざわざデジタル化するのは大変」と言う人がいるが、「わざわざ」の感覚が逆なのだ。現代の「著者」たちの大半はPCやスマホで執筆していると推察される。生まれた瞬間にはデジタルだったものを「わざわざ」紙に印刷して紙でしか読めないようにしておきながら、それを大変な苦労をしてデジタルに戻している。
電子書籍も納本の対象にする計画は昔からずっと検討段階にあったが、2023年1月から遅まきながら漸く始まるかもしれない。
過去の本はともかく、現代の本に関しては、特別な事情がないかぎりは出版社に対してデジタルで出版することを義務付け、デジタルで国会図書館に納本するよう決まりを作るべきだ。そうすれば何十年も前から国会図書館の悩みの種となっている収蔵スペース不足問題の解消にも繋がるだろう。
【関連記事】