數位化掃描與文字辨識

66
數數數數數數數數數數 數數數數數數數數數數 數數數 數數數數數數數數

description

數位化掃描與文字辨識. 范紀文 中央研究院資訊所. 簡報大綱. 數位化的意義與省思 視覺管理的概念 色彩空間的選擇與應用 掃描器測試與選購 掃描器的使用技巧 文字辨認軟體之應用. 數位化的意義與省思. 什麼是數位化 ?. 定義 凡是將具有一定實體的物件,以某種形式複製於電腦的動作皆可稱之. 實體:紙本、雕塑、 服飾... 複製形式:文字、 影像、視訊、 3D 模型. 數位化的基本要求. 複製一個與原物件近似一樣的數位化作品 原作品  ≠  複製品 允許公差 內眼無法分辨複製品的不同. 合理的數位化要求. 複製可分為軟式複製、 硬式複製 - PowerPoint PPT Presentation

Transcript of 數位化掃描與文字辨識

Page 1: 數位化掃描與文字辨識

數位化掃描與文字辨識數位化掃描與文字辨識

范紀文

中央研究院資訊所

Page 2: 數位化掃描與文字辨識

簡報大綱

數位化的意義與省思 視覺管理的概念 色彩空間的選擇與應用 掃描器測試與選購 掃描器的使用技巧 文字辨認軟體之應用

Page 3: 數位化掃描與文字辨識

數位化的意義與省思數位化的意義與省思

Page 4: 數位化掃描與文字辨識

什麼是數位化 ?

定義– 凡是將具有一定實體的物件,以某種形式複製於電腦的動作皆可稱之.

• 實體:紙本、雕塑、 服飾...• 複製形式:文字、 影像、視訊、 3D 模型

Page 5: 數位化掃描與文字辨識

數位化的基本要求

複製一個與原物件近似一樣的數位化作品– 原作品 ≠ 複製品– 允許公差

• 內眼無法分辨複製品的不同

Page 6: 數位化掃描與文字辨識

合理的數位化要求 複製可分為軟式複製、 硬式複製 不同的媒體所能表現的色彩空間與對比亦不相同

經過校準後的系統– 至少必需達到單獨觀看兩種不同複製時,能有相同的感覺

– 相同類型複製媒體必需達到眼睛看不出差異

Page 7: 數位化掃描與文字辨識

品質與品牌

知名品牌不等於好的品質

行銷與數據的陷阱

眼見為憑的實際測試

Page 8: 數位化掃描與文字辨識

視覺管理的概念視覺管理的概念

Page 9: 數位化掃描與文字辨識

認識視覺管理

希望達到在各種設備上都能提供致的視覺感受。 –各種設備所能表現的顏色與對比不同

Page 10: 數位化掃描與文字辨識

光是色彩的必要條件

組成基本顏色的三原色–紅、 綠、 藍

物體之所以會呈現不同的顏色,因其吸收光線中的某些色光,無法吸收且反射到人眼睛中的色光,即我們所看到的顏色。

Page 11: 數位化掃描與文字辨識

色光三原色與色料三原色

色光三原色– 即一般我們所熟知的 RGB ,利用光線所產生的色彩。

– 紅、綠、藍 色料三原色

– 即用於印刷出版時所使用的 CMYK ,利用顏料來產生的色彩。

– 青色、洋紅、黃色

Page 12: 數位化掃描與文字辨識

各種不同顏色的組成

小時候在水彩課時是如何畫畫的呢?

Page 13: 數位化掃描與文字辨識

加色混合 三原色等量混合會呈現白色 加入顏色的量愈多時,顏色的亮度會越高

色光三原色使用加色混合

Page 14: 數位化掃描與文字辨識
Page 15: 數位化掃描與文字辨識

減色混合

加入顏色的量愈多,顏色亮度愈低 色料三原色所混合的黑色,只是接近黑色的混色

色料三原色使用減色混合

Page 16: 數位化掃描與文字辨識
Page 17: 數位化掃描與文字辨識

色彩的共同語言-- CIE

1931 年由 CIE(國際照明協會 ) 訂定一套名為 CIE Yxy的表色系統。

1976年將 CIE Yxy以數理方式,轉換成新的 CIE Lab模型

色彩的工業標準 IT8 標準色彩導表

Page 18: 數位化掃描與文字辨識
Page 19: 數位化掃描與文字辨識

色彩管理與調校 設備不同,色彩空間也不同 色彩空間對應方式

– 色度性映對– 知覺性映對

色彩調校步驟– 建立 IT8 色彩標準導表– 利用色度計檢測每個顏色– 將檢測結果製作成為一份色彩特性檔

任何設備狀況有改變都必需重新調校

Page 20: 數位化掃描與文字辨識
Page 21: 數位化掃描與文字辨識

色彩空間的選擇與應用色彩空間的選擇與應用

Page 22: 數位化掃描與文字辨識

色彩空間的作用

為什麼在做影像掃描時,總是掃出來的影像與圖片的有所差距呢?– 影像處理軟體 (Photoshop) 中的色彩模式,決定了螢幕顯示、 列表機列文件的標準值

– RGB 影像會因為所搭配的輸入設備而有所不同

Page 23: 數位化掃描與文字辨識

RGB 模式

RGB 能呈現一千六百七十萬種色彩– 色光三原色,每一顏色可分成 256 種濃度

• R ( 紅 ) 、 G( 綠 ) 、 B( 藍 )

– 常被應用到電腦螢幕、投影機、電視… ..– 被大多數影繪畫軟體採用為預設模式– 為所有 Photoshop 色彩模式中較容易被接受的

Page 24: 數位化掃描與文字辨識

常見的 RGB 色彩模式 -1

sRGB– 為 Microsoft 、 Pantone 、 HP 等公司所研發– 支援多種軟硬體設備 ( 如掃描器、列表機及軟體 )

AppleRGB– 為早期的 Photoshop 所使用的色域– 為麥金塔電腦上處理、顯示影像最適合的選擇

Page 25: 數位化掃描與文字辨識

常見的 RGB 色彩模式 -2

CIE RGB– 為國際照明協會所定義– 色彩空間寬廣,無法與其它色彩空間相容– 適合做為 16 位元的輸入設備使用– 彩度高

SMPTE-C– 色域介於 sRGB 與 Wide Gamut RGB 之間– 比 HDTV螢光質色域寬廣

Page 26: 數位化掃描與文字辨識

常見的 RGB 色彩模式 -3

ColorMatch RGB– 為 Radius 所定義,符合桌上排版顯示器的原始色域

– 專門用來做為印刷設定的 RGB 色彩空間– 校正到 5000K 色溫與 Gamma 1.8 時是最接近 RGB 色彩空間與 CMYK 色彩空間

• 可安全的轉換色彩空間

Page 27: 數位化掃描與文字辨識

常見的 RGB 色彩模式 -4

Lab 模式– 與裝置無關的色彩空間– 亮度與色彩分開– 為所有色彩模式的參考標準 (Photoshop)

– RGB Lab CMYK參考螢幕設定 參考印墨設定

Page 28: 數位化掃描與文字辨識
Page 29: 數位化掃描與文字辨識

常見的 RGB 色彩模式 -5

CMYK– 由四種印刷分色的色彩構成

• C(靛藍 ) 、 M( 洋紅 ) 、 Y( 黃色 ) 、 K( 黑色 )

– 一種完稿稿件的顏色模式– 每個像表包含 32(8 x 4) 位元– 由此四色種顏色調配 ( 一個百分比值 ) 組合成所有印刷色彩

– 如白色,即為所有顏色的含量為0%

Page 30: 數位化掃描與文字辨識

常見的 RGB 色彩模式 -6

HSB– 以人類對色彩的了解為基礎,由三個基本要素所組成

• Hue( 色相 ) :色彩由物體所反射出來的顏色• Saturation(飽和度 ) :又稱為彩度,即顏色的強度

• Brightness( 亮度 ) :明亮與灰暗的程度

Page 31: 數位化掃描與文字辨識

掃描器測試與選購掃描器測試與選購

Page 32: 數位化掃描與文字辨識

選購掃描器的目的為何

為何需要掃描器? 用途為何?期望達成什麼效果?預算多少?

Page 33: 數位化掃描與文字辨識

掃描器的分類 辦公室型

– 主要的影像複製需求為視窗簡報、網頁、電子型錄、報表....

– 主要使用 sRGB 色彩空間– 亮度對映函數 (Tone Curve) 為 Gamma = 2.2– 以反射稿及正片為掃描的主要原稿

影像美工型函數– 主要用於印刷的影像,使用較嚴謹的色彩空間– 色彩空間為 CMYK– 亮度對映函數 (Tone Curve) 為 Gamma = 1.8– 以層次最為豐富的正片為原稿為佳

Page 34: 數位化掃描與文字辨識

衡量掃描器良窳的依據 解像力

– 指影像細微處的掌握能力 畫面重現性

– 色彩的相對變化,主要變因包含色相及彩度 層次重現性

– 指相近的色彩或亮度上些微的差異,讓人感覺更立體或更具可看性

掃描速度 附加配件

Page 35: 數位化掃描與文字辨識

實際影像掃描

以照片或正片實際測試以上之特性

比較不同掃描器的結果

Page 36: 數位化掃描與文字辨識

掃描器的使用技巧掃描器的使用技巧

Page 37: 數位化掃描與文字辨識

事前準備

掃描者的想法 /觀點是什麼 ? 分析原始稿件性質挑選適合參數

Page 38: 數位化掃描與文字辨識

掃描介面的參數選定 影像類型 解析度與解析度單位 掃描範圍、縮放比例、輸出尺寸 進階調整

– 濃度範圍與黑白點– 階調調整– 色調調整– 飽和度– 色調曲線– 濾鏡與去網紋

Page 39: 數位化掃描與文字辨識

影像類型

一般可選擇的色彩模式如下– 24 位元 RGB全彩– 48 位元 RGB全彩– CMYK 模式– 網頁 (sRGB)– 256灰階

在網頁或印表機列印以 sRGB 模式較佳 影像輸出用途以 24 位元 RGB全彩模式掃描為主,等要進入分色機之前再轉換成 CMYK便可

Page 40: 數位化掃描與文字辨識

解析度與解析度單位

指掃描原始稿件時,每一單位 (英吋 )用多少點來描述影像

一般解析度表示單位 dpi (dot per inch)解析度的設定在螢幕上並沒有任何影像,只會影響列印時的尺寸

Page 41: 數位化掃描與文字辨識

掃描範圍、縮放比例、輸出尺寸

掃描範圍指實際要掃描的範圍縮放比例指在掃描時要縮小或放大的倍數

輸出影像的寬等於影像尺寸的寬度乘上解析度

實際掃描解析度等於解析度乘上縮放比例

Page 42: 數位化掃描與文字辨識
Page 43: 數位化掃描與文字辨識

濃度範圍與黑白點濃度範圍指原稿影像的黑色定義與白色定義– 可同時或分別調整三個個別通道的色彩– 適合調整影像暗點的最低亮度

黑白點– 指影像的明亮程度– 適合調整影像亮點的最高亮度

此兩者之調整能增加影像對比的層次感

Page 44: 數位化掃描與文字辨識

階調調整

階調調整即之前所提之亮度對映函數的調整

用於調整原稿亮度與輸出亮度之間的關係– 任何輸出都具有壓縮暗部層次,強調亮部層次的效果

– 一般而言應將亮部層次稍微拉大,使影像資料具有強調暗部層次的效果

Page 45: 數位化掃描與文字辨識
Page 46: 數位化掃描與文字辨識
Page 47: 數位化掃描與文字辨識

色調調整

在整個畫面中加入或是減少一個色彩 可將原照片的底色去除或以另一種彩色取代

Page 48: 數位化掃描與文字辨識
Page 49: 數位化掃描與文字辨識

飽和度

主要係調整原始照片的色彩飽合度與數位色彩飽合度間的對映關係

飽合度的提高會使畫面顯得較為多采,且顯得生意盎然,但太高畫面易顯得低俗

飽合度太高時在 CMYK模式中有許多色彩無法表現出來

Page 50: 數位化掃描與文字辨識
Page 51: 數位化掃描與文字辨識

色調曲線

與階調調整的目的相同,但採用不同的方式處理

直接調整輸入色階,可直接調整三個不同的色彩通道

此種調整能創造出非常多樣的效果

Page 52: 數位化掃描與文字辨識

濾鏡與去網紋

與影像處理軟體的濾鏡功能具有相同的效果

使用掃描器此一功能的效果遠遠優於影像處理軟體的效果–直接從輸入色階 ( 色彩空間大於全彩色彩空間 ) 去除雜訊

–可購買網線測試器測量印刷品的網線數

Page 53: 數位化掃描與文字辨識

文字辨認軟體之應用文字辨認軟體之應用

Page 54: 數位化掃描與文字辨識

文字辨識軟體的現況市場上文字辦識軟體種類繁多

– 手寫式文字辨識系統• 蒙恬筆

– 印刷字體式文字辨識系統• 丹青中文辨識系統

眾家廠商功能大致相同 以下就以丹青中文辨識系統 4.0 黃金版為例,說明文字辨識之效果

Page 55: 數位化掃描與文字辨識

中文辨識的限制

只能辨識印刷字體 辨識的效果與紙質及掃描效果有關 無法辨識楷書以外的字體 無法辨識 POP 型式的文字 使用黑白稿件效果優於彩色稿件 使用 300 dpi 掃描效果最好

Page 56: 數位化掃描與文字辨識

彩色文件辨識範例

Page 57: 數位化掃描與文字辨識
Page 58: 數位化掃描與文字辨識
Page 59: 數位化掃描與文字辨識
Page 60: 數位化掃描與文字辨識

黑白文件辨識效果

Page 61: 數位化掃描與文字辨識
Page 62: 數位化掃描與文字辨識
Page 63: 數位化掃描與文字辨識
Page 64: 數位化掃描與文字辨識
Page 65: 數位化掃描與文字辨識

如何做好文字辨識工作

選擇辨識率良好與功能齊全的軟體了解文字辨識軟體特性 熟悉掃描器特性與操作了解基本影像處理特性與原則

Page 66: 數位化掃描與文字辨識

參考資料 “9款中高階掃描器採購特集” ,PC SHOPPER,2001/No.30,5月號 . 力新國際科技股份有限公司 , http://www.newsoft.com.tw/ . 蒙恬科技 , http://www.penpower.com.tw/ .