查看完整版本: PROJET 请高手指点

jandy_01 2008-3-3 16:12

PROJET 请高手指点

现在要做一个projet, 用java 实现计算OCR识别率,不太会做,请高手帮忙指点。}MX5N L
(vd|Ak/q
CONTEXTEZ'Q ^ C/j#q
Les logiciels de reconnaissance de caractères (OCR) fonctionnent relativement bien sur des
]tGc5L9Z5Z9W documents dactylographiés. Un taux de reconnaissance de 100% n'est cependant que rarementN0|#W%R*Lrg6eT7o
atteint.
bzp9p lD Il est intéressant de pouvoir mesurer le taux de reconnaissance d'un document.
{~(F MX.[,OZ La reconnaissance concerne deux aspects :
,HO%J.s#o7wdOe 1. La reconnaissance de la structure du document
'h? Jt4T 2. La reconnaissance des caractères du document-?Cc4H?;Z#Q \|

Km7T8Fu OBJECTIFS
+m/Zs(BrX L'objectif du projet est de développer le pilote d'un logiciel permettant de :a#g%PJ%P*w
1. Mesurer le taux de reconnaissance à posteriori d'un document.
b{duw-ssU 2. Corriger le document"p^d f[f:w5eTH

-F+| cHM;P LIVRABLES ATTENDUS
%F G(e8ttM9T Logiciel opérationnel en ligne de commande. ite;]l^;Mi
EXISTANT ET CONTRAINTES-\`OhQ,E&^j5r9Kf
Plateforme :Ja {1j5m HM
Multi plateforme : Linux
r4gaYg\ PerformanceG1E)H-I2\%G6c&_%B2X
Les algorithmes devront être optimisé pour minimiser les temps de traitement.8uFy!Hr$@Y.G;b;g K
Afin de mesurer les performances, les traitements seront exécutés selon le protocole suivant :
OY)Mt(VYg >time traitement_CTx.x
[$rX] z#V!M*E` t_3bp:y C){;?
DEFINITION DES TERMES
)Hrr"Lq.p Mot long : chaîne de caractères dont la longueur est supérieure ou égale à 3 caractères.
3o+Y:KD/uw"O La position d'un mot dans un fichier est la distance en nombre de caractères entre le premier
rW*kB*cj'[ caractère du mot et le début du fichier.iy$h$Z W J

:o,kz ?'GGtdm/I CT2 : CONTROLE SANS FICHIER DE REFERENCE6J7z Zv9xt_$h
CT2-1 : contrôle de la reconnaissance des mots courts
-VVU;kd^:g^ À partir d'un lexique des mots courts possibles dans la langue française, mesurer le taux de
Ya#cc |`4P0} reconnaissance des mots courts.P:Ozc3RE6D8{
Sortie
e8q6ATb9iVJs Taux de reconnaissance mot court = nombre de mots courts du fichier OCR présent dans le lexique6WDG Puh&XL[
divisée par le nombre de mots courts du fichier OCR
N.P1t3dim4q CT2-2 : contrôle de la reconnaissance des mots longs:^ cv2n^7?0ZZr Q
À partir d'un dictionnaire syntaxique mesurer le taux de reconnaissance des mots longs.
6z/]2?:H j R u.V,TANo"m
就是针对OCR处理过的文件计算短词和长词的识别率,请请高手提点建议,万分感谢!
页: [1]
查看完整版本: PROJET 请高手指点
马上开通个人空间,记录我们的留学生活
法语助手在线词典