2010/01/23

Googleはすごい!

私が使っているこのBloggerというブログはGoogleのアカウントで利用しています。
Googleアカウントをもっているということで、Googleの機能はいろいろと積極的に使っているのですが、これ↓は知りませんでした。

Google Docs にテキストを OCR する機能が追加予定?2009.9.29
こちら↑のブログの記事を見つけてさっそく試してみました。
・英文のみで日本語は出来ません。
・Googleアカウントが必要です。
こちらのフォームを利用して画像をアップロードすると、テキストが認識されて自動的に Google Documents に変換されます。
※OCR(Optical Character Reader)ソフトは画像ファイルを文字認識してテキストファイルを作ります。

大阪城の蛸石のガイドボード写真をアップロードしてみました。
Sakuramon Stone Square
Magnificent stone walls were built here to defend the front gate of the central Citadel. Scorch on the stone wall indicates the site ot Sakuramon Daimon (gate) [...] was burnt down in the civii war in 1868.The stone in the facade, called "Takoisì" or "Octopus Stone", is the largest stone in the Castle. The surface area of the stone is about [...] and its esti- mated weight is 13Ot. The stone on the left, celled the Kimono Sleeve Stone",is the third largest in the castle, with a surface area of 54and an estimated weight ot 12Ot_

赤で印をつけた部分(私がつけました)だけが読み取れませんでした。
手書きだとどうなのでしょう?
OCRもここまで気軽に簡単に誰でも利用できるといいですね(・∀・)

こちら↓のニュースによると、OCR精度をさらに改善しているようです。
Googleが「reCAPTCHA」サービス企業を買収,セキュリティ強化とOCR精度向上が狙い[2009/09/17]

こちら↓のニュースの「書籍デジタル化」というのも興味があります。
カーネギーメロン大学,画像認証を書籍デジタル化に活用するサービス「reCAPTCHA」[2007/05/25]

日本語は今どれくらいの精度で読み取れるのでしょう???
数年前、OCRソフトを使ったことがありますがダメダメでした。

青空文庫や、携帯文庫(新潮ケータイ文庫)は?
青空文庫はボランティアの手によりデジタル化となっていました。
携帯文庫の最近の作品は、作家自身がパソコン入力で原稿を書くので簡単なのでしょうか?
それともOCRで読み取って、修正しているのでしょうか?

しかし、明治、大正、昭和初期の本となると、旧漢字が入っているし、印刷もあまり状態がよくないので、OCRで読み取ることは難しいかもしれませんね・・・

最近知ったのですが、国立国会図書館の近代デジタルライブラリーでは、明治・大正期刊行図書の資料本文をデジタル画像で閲覧することができます。

私の曽祖父の本も見れるのです(^-^)
でも、あくまで画像なので、テキストにはなっていません。

しかし、これがGoogleBooksになると本文検索で探せるのです!
曽祖父の本をデジタル化しているのはハーバード大学、カリフォルニア大学、ミシガン大学などアメリカの大学。
アメリカでは、明治時代の日本書籍もたくさん所蔵していて、日本語でもOCRでテキスト化できているということなのでしょうか???
しかし、検索できることはいいのですが、全文表示で読ませてはもらえないのです。
Google ブック検索のこれからによると、「研究者が機関を通じて申し込みを行うと」となっています。
身内ということではダメなのでしょうか(T_T)
どっちみち、英語で申し込みなんて所詮無理でしょうが。。。

大阪人としては、「郷土研究 上方」や、直木三十五の「大阪物語」がテキストでデジタル化して欲しいです。
読むのはもちろん有料でいいです。

これは、数年後にはOCRで実現するようなことなのでしょうか?
すでに日本の大学でも実現していること?
著作権やいろいろ絡んでややこしいのかな・・・

どうなのでしょう(-_-)う~む・・・ 今一番気になることです。

0 件のコメント:

コメントを投稿