Watson API の Document Conversion サービスを使用してみました。これは PDF、Microsoft Word、HTMLファイルなどをテキストファイルに変換(正規化)するサービスです。不要な情報を除去しテキスト化する事により、Retrieve
and rank などで使用可能な情報にするのが目的です。
試してみた環境はWindowsです。その時のメモを残します。(2017年2月 更新)
スポンサーリンク
参考:how to use, and customize the IBM Watson Document Conversion service with cURL commands
(1)サービスの作成
以下の手順を参考にして Document Conversion サービスを作成します。
Blumix 登録及びWatsonサービス作成手順
(2)サービスを作成すると以下のような画面が表示されます。[作成]をクリックします。
(3)[サービス資格情報]をクリックし後、[資格情報の表示]をクリックします。
(2017年2月現在で、なぜかIEでは資格情報は表示できませんでした。よってChoromeで試しました。)
usernameとpasswordが表示されるため、メモしておきます。これは同じBlumix アカウントでもサービスごとに異なる点に注意してください。
以下のPDF をこのサービスでテキストに変換してみます。形式は pdf ファイルです。普通の文字だと面白みがないため、サイズを変更したり斜体にしてテストしてみます。
(1)コマンドプロンプトを管理者権限で開きます。
(2)以下のコマンドを実行します。"USERNAME"と"PASSWORD"は前の手順で取得した値を指定します。
c:\>set APIURL=https://gateway.watsonplatform.net/document-conversion/api
c:\>set USERNAME=********-****-****-****-************
c:\>set PASSWORD=************
c:\>curl -k -X POST -u "%USERNAME%":"%PASSWORD%" -F config="{\"conversion_target\":\"answer_units\"}" -F file=@c:\tem\test-document-for-Watson.pdf "https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15"
スポンサーリンク
結果は以下の通りです。正しくPDF上の文字が変換されていることが分かります。(*)ただしOCR文字認識ではなく、PDF内の文字をテキストに変換しているだけと思われます。
{
"source_document_id":"",
"timestamp":"2017-02-01T01:00:00.000Z",
"media_type_detected":"application/pdf",
"metadata":[
{
"name":"Content-Type",
"content":"text/html; charset=UTF-8"
},
{
"name":"author",
"content":"username"
},
{
"name":"publicationdate",
"content":"2017-02-01"
}
],
"answer_units":[
{
"id":"********-****-****-****-************",
"type":"h3",
"parent_id":"",
"title":"これはテストのドキュメント1です。",
"direction":"ltr",
"content":[
{
"media_type":"text/plain",
"text":""
}
]
},
{
"id":"********-****-****-****-************",
"type":"h1",
"parent_id":"",
"title":"これはテストのドキュメント2です。",
"direction":"ltr",
"content":[
{
"media_type":"text/plain",
"text":""
}
]
},
{
"id":"********-****-****-****-************",
"type":"h1",
"parent_id":"",
"title":"これはテストのドキュメント3です。",
"direction":"ltr",
"content":[
{
"media_type":"text/plain",
"text":""
}
]
}
],
"warnings":[
]
}
スポンサーリンク