Spørgsmål:
Fysisk tekst til digital tekst
Kyle Bridenstine
2018-06-09 21:53:43 UTC
view on stackexchange narkive permalink

Lad mig først prefikse dette spørgsmål med, jeg har ingen idé om, hvilket StackExchange-sted, der er bedst egnet til dette spørgsmål, men jeg troede, at LifeHacks muligvis fungerer ...

I 1998 var min mors side af familien havde en stor familiesammenføring (min oldemor havde ti børn, så det var virkelig en stor sammenkomst). En af mine fjerne onkler skrev en slags bog om vores familiens historie til denne genforening, og min mor gav mig bogen at læse. Jeg kunne ikke tro, hvor stor den er, og hvor meget forskning der gik ind i bogen. Jeg vil gerne finde ud af en måde at få hele bogen på et websted, jeg laver, hvor jeg derefter kan dele den med alle i vores familie og i sidste ende bevare historien længere end denne spinkel bog kan.

I håb om at jeg ikke behøver at skrive ord for ord, er hele denne 300-siders bog der en måde, hvor jeg bare kan scanne siderne og få dem i digital tekst? Naturligvis kunne jeg bare tage billeder og gøre hjemmesiden ved hjælp af billederne, men jeg har lyst til, at det ville være mere fordelagtigt at have det som egentlig tekst, for så vises det muligvis bedre på Google-søgninger, når nogen søger et familiemedlems navn eller noget lignende. Også, hvis nogen i familien nogensinde foretager et forskningsprojekt om vores familie, ville de være i stand til at kopiere noget af teksten og henvise til den lettere.

Så ved nogen den bedste måde jeg kan få denne gamle familiebog til digital tekst?

Book front page

Book indicating thickness

Fem svar:
hlecuanda
2018-06-11 08:56:22 UTC
view on stackexchange narkive permalink

Brug en Android-telefon, og funktionen " Google Lens. " er for nylig tilføjet til foto-appen og kamerafotovurderingen scrwwn.

OCR via Google Lens er ret fantastisk og præcis ud over enhver OCR-software, jeg nogensinde har brugt.

Nedenfor er nogle skærmbilleder, der beskriver proceduren ved hjælp af en billig (100 USD) Nokia 3, bedste telefon, jeg har haft fornøjelsen at bruge, siden min elskede Nexus 4 opgav spøgelsen .

Jeg vil detaljeret en OCR-prøveeksempel af en græsk etymologibog, der blev trykt i 1976, som jeg ikke tør rive fra hinanden til scanning, der ser ud til at have lignende karaktertæthed og skrifttype. tog dette originale billede i mindre end ideelle lysforhold ved hjælp af alle automatiske indstillinger på det såkaldte telefonkamera, der blev ikke brugt specielle fototeknikker eller inventar til at forbedre resultatet, du kan sige, det er bare et almindeligt amatørbillede taget telefonbillede på en bogs side . (Bare sørg for, at teksten er fokuseret, ingen OCR vil dechifrere sløret off-focus-tekst)

enter image description here

Klik på Google-objektivikonet, der er tilgængeligt via forhåndsvisning efter at have taget billedet eller på selve billedet ved hjælp af Google fotos-appen

enter image description here

Her er -Skynet- ^ M ^ M ^ M ^ M ^ M ^ M Jeg mener, Google Lens udfører sin magiske scanning (prikkerne er lidt uhyggelige, men de var nødt til at gøre noget for at fortælle dig, at googley AI gør sine ting, tror jeg)

enter image description here

Når billedet er scannet, finder du tekstområder, som Google Lens fandt på billedet, blev tydeligt skitseret, og deres tekst allerede blev trukket ud til den nederste halvdel af skærmen. hvis du kun vil have nogle områder og ikke andre, skal du bare trykke på dit valg for at aktivere / deaktivere dem.

Hvis du rører ved den udpakkede tekst, placeres den i dit udklipsholder til kopi / indsæt godhed hvor som helst på din telefon.

enter image description here

Bagefter skal du bare indsætte teksten i et Google docs -dokument. Der kan du: - rette eventuelle fejl lige der eller på din pc, - del dokumentet til dit hjerte indhold - offentliggør det som en webside med live opdatering af dine redigeringer, eller - eksporter til - almindelig tekst, - word-dokument, - åbent kontordokument , - antændelig kompatibel epub elektronisk bog med tilbagevendende tekst, eller - god ol 'Ikke-DRMd PDF

Det kan hævdes, at dette sandsynligvis er den korteste vej til udgivelse, med bredest mulige outputvalg.

Du kan gøre det hele fra en enkelt enhed (Android-telefon med de relevante apps installeret) og gøres med det på ingen tid med en høj nøjagtighed, stort set gratis.

Her er Google Docs indsat Fragment
enter image description here

Her er Google Docs URL-deling, er du velkommen til at kommentere. Du kan også få nogen til at hjælpe dig med at redigere dokumentet eksternt og samtidigt.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Endelig er her et websted på Google Sites offentliggjort ved hjælp af det ovennævnte dokument som linket kilde

https://sites.google.com/h-lo.me/ocrsample

Det er https, desktop og mobil aktiveret og afhængigt af smag er det generelt ikke ømt i øjet. Ikke dårligt for 15 minutters samlet arbejde og ingen kodning overhovedet.


Der er en forbedring tilbage, og det er at oprette rigtige afsnit på Google-dokumentet, da Google Lens indsætter en hård returnering efter hver linje med udpakket tekst, hvilket gør hver linje til sit eget afsnit, og dette bliver et problem, hvis du vil bruge Google Docs-funktioner såsom indholdsfortegnelsen , eller når du eksporter dit dokument til en tændkompatibel elektronisk bog med e-pub (ødelægger den flydende tekst)

Du kan bare slutte dig til hver linje, hvor det er relevant, ved at trykke på tilbagetasten ved hver linjestart dette kunne automatiseres med et script.

Så jeg skriver et appscript-tilføjelsesprogram, som jeg snart offentliggør for at automatisere denne proces. Jeg fortæller dig her, når det er gjort.

Stor detalje. Jeg kan godt lide denne gratis løsning. Tak!
Min fornøjelse! Du har måske endda allerede alt hvad du har brug for! :)
For a thick book, this is a really labor-intensive approach: you have to manually flip each page and then photograph it.
Stan
2018-06-10 03:54:56 UTC
view on stackexchange narkive permalink

Du kan gøre dette i etaper. Start med at sætte alt online som sidescanning og opdatere, når og når du kan. Cerlox ™ plastkambindbinding gør det let at tage det adskilt og lægge det tilbage i bindingen.

Da udskrivningen ser ud til at være normal serif-type i samme størrelse, kan scanningerne digitaliseres ved hjælp af optisk tegngenkendelse software. OCR kan give dig et udkast til tekstfil, som du kan korrekturlæse og offentliggøre på hjemmesiden til dets endelige form.

På samme tid kan du rydde op i billederne og andet billedmateriale.

Du kan gøre dette, når tid / ressourcer bliver tilgængelige for dig til projektet.

Svarende til det forrige svar, men ikke så detaljeret.
@TrajanEspelien Hvilket tidligere svar? Tjek tidsstemplet. Svaret var først to dage før indgivelsen af ​​hiecuanda. :)
Ja, men det har ikke så mange detaljer som det andet svar, hvorfor jeg accepterede det andet over dette. Det er ikke først til mølle server .. det er det bedste svar.
@KyleBridenstine Ingen sjov! Jeg opstemte også hiecuanda. Det var et godt svar. Forresten, hvad hvis du ikke havde en Android-telefon eller ikke har adgang til Glass? Jeg gav et generisk svar på spørgsmålet. :)
Sandt nok, hvis du gav et specifikt link til gratis OCR-software, der sandsynligvis ville have solgt dit svar til mig. Det er et gråt område, jeg var ved at acceptere dit svar, men ville vente, så folk stadig ville være tilbøjelige til at sende deres løsninger. Men da jeg så hlecuandas svar, var det så detaljeret, at jeg besluttede at acceptere det. Du har stadig et godt svar, og jeg har bestemt opstemt det selv.
@KyleBridenstine Tak for de venlige ord. Vi er enige. Jeg tror, ​​du gjorde det rigtige ved at vente. Første svar er IKKE bedst (medmindre det * er * af en eller anden grund. Der er trods alt deadlines.) Jeg sendte linket til dit spørgsmål og hiecuandas gode svar til en kollega, der skal gøre det samme med en enorm bunke skole optegnelser fra Brasilien!
Hovedårsagen til ikke at bruge det mere detaljerede svar er, at det bruger en OCR-proces side for side. Når du har scannet alle siderne, kan du batch OCR alle siderne på én gang ved hjælp af Tesseract (eller noget, der bruger Tesseract-motoren) for automatisk at oprette en fuld PDF.
therobyouknow
2018-06-23 05:38:34 UTC
view on stackexchange narkive permalink

Nogle gode svar her for selv at komme til det.

Jeg vil gerne tilføje min erfaring med at betale en anden for at gøre det for dig.

Jeg brugte Digitaliser min Bøger i Storbritannien (jeg er selv baseret i Storbritannien).

Jeg var meget tilfreds med resultaterne: Hver bog returneres som en PDF-fil, der har søgbar (og kopierbar) tekst. En standard PDF-teknik bruges, hvor det oprindelige billede for hver side bevares, men med et tekstoverlay, således at du kan fremhæve den originale tekst på siden. Meget god værdi. Som nogen i udlandet fra Storbritannien kan du stadig sende dem bøgerne.

De tilbyder også en mulighed for, at bogen kan redigeres i orddokumentformat til en ekstra, men meget rimelig pris.

Hvis du ikke kræver, at originalen returneres, så billigste løsning ville være at vælge destruktiv scanning. Det er her siderne tages individuelt fra bogen og scannes. Som standard returneres den originale bog ikke, selvom jeg tror, ​​du kan anmode om den, muligvis mod ekstra omkostninger (f.eks. Ved returporto), men siderne er løse, når de er fjernet for at blive scannet individuelt. Destruktiv scanning er den mulighed, jeg valgte for alle mine bøger, og jeg krævede ikke, at originalerne skulle returneres.

De tilbyder også ikke-destruktiv kopiering, hvis du har brug for originalen, men prisen er højere. De accepterer også dine egne digitale scanninger, hvis du allerede har scannet en bog - de kan gøre dette til den søgbare, kopierbare PDF- eller Word-doc.

Se rundt på deres hjemmeside. Jeg synes virkelig, at dette er den bedste mulighed: bruge penge på at spare tid i stedet for at bruge tid på at spare penge.

Jeg arbejder ikke for Digitaliser mine bøger og har heller ingen økonomisk interesse i dem (aktionær eller andet).

Oprindeligt var jeg begyndt at "scanne" i bøgerne selv ved at fotografere ved hjælp af et DSLR-kamera (fotografering er hurtigere end flatbed-scanning) med hver side holdt åben med et udklipsholderklip og blu-tak. Men jeg fandt dette ret arbejdskrævende.

Hvis du stadig er ivrig efter at gøre det selv, er ScanTailor et open source Windows-program, der vil formatere, opdele dobbelte sider / par sider som scannet til individuelle sider, rette og "dewarp" dem. Så de resulterende sider vises flade og lige efter ønske, men det gør ikke OCR: resultaterne er stadig bitmapbilleder. Men i det mindste går det en eller anden måde at batchautomatisere rydning af enhver forvrængning af siderne, især ikke-destruktiv kopiering, hvor det er vanskeligt for en at arrangere siderne så de er flade for store bøger.

Opdateret

Tilføjet flere oplysninger om scanningsmuligheder, der tilbydes af en tjeneste. ScanTailor yderligere info. Grammatikkorrektioner.

Hobbes
2018-12-17 19:47:44 UTC
view on stackexchange narkive permalink

Den hurtigste måde at gøre dette på er at kontakte din slægtning og se, om de stadig har de originale filer, de brugte til at oprette den bog. Fra forsidebilledet vil jeg sige, at det er lavet på en computer. Konverter fra {indsæt virkelig gammel tekstbehandlingspakke her} til et aktuelt format, og du er færdig.

Den næst hurtigste måde at omdanne en stak med trykt materiale til et digitalt dokument:

  1. Fjern bindingen.
  2. Skær venstre kant af siderne for at slippe af med hullerne. Huller forstyrrer en dokumentføder.
  3. Gå igennem bogen og fold eventuelle krøller og andre skader, der kan forstyrre en dokumentføder.
  4. Find enhver rimelig moderne duplexprinter, der har en dokumentføder og en scanningsfunktion. Scan til PDF.

Brug derefter en hvilken som helst OCR-pakke til at omdanne de scannede sider til en Word-fil. Jeg bruger OCR-funktionerne i den fulde version af Adobe Acrobat til dette formål, men der er mange OCR-motorer rundt.

Alan
2018-06-15 01:23:07 UTC
view on stackexchange narkive permalink

Det kan være en god idé at prøve en meget billig service: preserve-your-memories.info. Når jeg gør det selv, bruger jeg min scanner til at scanne til OmniPage, et OCR-program, og derefter gemme som en pdf-fil, der er fuldstændig søgbar. Da din publikation er bundet af plastkam, er det let at skille hinanden for at scanne individuelle sider & og derefter genindbinde. At tage billeder som beskrevet i ovenstående forslag er også meget brugbart - en god blandt mange tilgange.



Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 4.0-licens, den distribueres under.
Loading...