安装tesseract
brew uninstall tesseract
brew install --with-training-tools tesseract
构建字符集
-
合并为tif
tools-Merge Tiff
保存为num.myfont.exp0.tif
-
生成box
tesseract num.myfont.exp0.tif num.myfont.exp0 -l eng -psm 7 batch.nochop makebox
-
使用jTessBoxEditor修改box文件(这个文件也可以手动改)
-
box文件如下,可以看出是第几页是什么字符,坐标大小是什么
-
A 340 43 359 68 0
B 363 43 379 68 0
B 384 43 400 68 0
D 405 43 420 68 0
E 426 43 440 68 0
F 445 43 460 68 0
G 463 43 479 68 0
H 483 43 500 68 0
I 506 43 510 68 0
J 514 43 529 68 0
K 534 43 550 68 0
L 554 43 568 68 0
M 572 43 593 68 0
N 598 43 616 68 0
O 621 43 637 68 0
P 643 43 659 68 0
Q 662 38 679 68 0
R 684 43 702 68 0
S 706 43 722 68 0
T 724 43 742 68 0
U 745 43 761 68 0
V 765 43 783 68 0
W 785 43 811 68 0
X 814 43 831 68 0
Y 833 43 851 68 0
Z 853 43 870 68 0
1 872 43 883 68 0
2 887 43 901 68 0
3 905 43 919 68 0
4 922 43 940 68 0
5 942 43 957 68 0
6 961 43 975 68 0
7 978 43 993 68 0
8 996 43 1011 68 0
9 1015 43 1030 68 0
0 1034 43 1049 68 0
a 461 44 476 62 1
b 481 44 496 69 1
c 500 45 515 62 1
d 518 44 533 69 1
e 538 44 553 62 1
f 556 45 568 69 1
g 571 38 586 62 1
h 591 45 605 69 1
i 610 45 615 69 1
j 617 38 625 69 1
k 630 45 645 69 1
l 649 45 654 69 1
m 659 45 684 62 1
n 689 45 703 62 1
o 708 45 723 62 1
p 728 38 743 62 1
q 747 38 762 62 1
r 768 45 778 62 1
s 780 45 795 62 1
t 797 45 808 67 1
u 812 44 827 62 1
v 830 45 846 62 1
w 849 45 870 62 1
x 873 45 888 62 1
y 890 38 906 62 1
z 909 45 923 62 1
@ 414 37 430 62 2
# 443 38 466 62 2
$ 479 34 494 65 2
% 507 35 540 62 2
^ 551 49 566 62 2
& 579 38 599 62 2
* 608 49 623 62 2
_ 633 36 648 38 2
- 659 46 668 50 2
= 680 42 693 52 2
+ 705 39 721 55 2
\ 733 33 746 62 2
/ 758 33 772 62 2
< 784 37 801 56 2
> 815 37 832 56 2
" 844 52 859 62 2
| 871 30 874 67 2
? 888 37 902 62 2
! 916 37 921 62 2
` 935 57 942 63 2
~ 957 44 973 51 2
[ 986 33 994 67 2
] 1002 33 1011 67 2
( 1025 30 1033 66 2
) 1041 30 1049 66 2
-
生产font_properties
echo myfont 0 0 0 0 0 >font_properties
-
生成训练文件
tesseract num.myfont.exp0.tif num.myfont.exp0 -l eng -psm 7 nobatch box.train
-
生成字符集文件
unicharset_extractor num.myfont.exp0.box
-
生成shape
shapeclustering -F font_properties -U unicharset -O myfont.unicharset num.myfont.exp0.tr
-
聚合字符特征文件
mftraining -F font_properties -U unicharset -O myfont.unicharset num.myfont.exp0.tr
-
正常化
cntraining num.myfont.exp0.tr
-
合并训练文件
cp normproto myfont.normproto
cp inttemp myfont.inttemp
cp pffmtable myfont.pffmtable
cp unicharset myfont.unicharset
cp shapetable myfont.shapetable
combine_tessdata myfont.
新增语言
brew list tesseract
查看tessdata位置
cp myfont.traineddata /usr/local/Cellar/tesseract/3.04.01_2/share/tessdata/
tesseract --list-langs
测试
tesseract 9606.tif output -l myfont -psm 7
doc
总结:
tesseract 4 以下的版本就是修改过后识别率也不是很高,但cnn 识别很好但是慢的很。有空弄一下4.0的lstm 看看效果。