Search results for «текст любой ценой doc» / Habr

Publications Hubs Companies Users Comments

alizar Apr 17 2018 at 10:22

Заблокировать Telegram любой ценой

8 min

99K

Весь мир наблюдает за противостоянием Российского государства и маленькой программки Telegram. Как бы забавно ни выглядело для внешнего наблюдателя, но для пользователей Telegram в России это шоу с собственным участием. Судя по всему, начальство поставило перед Роскомнадзором жёсткую задачу: заблокировать Telegram любой ценой.

Четыре дня назад Александр Жаров отвечал на вопрос журналиста: «Представляете, идут боевые действия, и вы говорите: „А вы когда атаку начнёте?“. Ну, в ближайшее время. Когда нападу — не скажу».

Теперь атака началась.

Шаг 1: блокировка IP

Вчера Роскомнадзор забанил 655 352 IP-адресов Amazon — всё ради того, чтобы помешать работе мессенджера в России: «У нас в выгрузку поступила подсеть Amazon, на которую перешёл Telegram, — сказал глава ведомства Александр Жаров. — Дело в том, что третий пункт решения суда предписывает Роскомнадзору и иным юридическим лицам не создавать условия для технического доступа к заблокированному мессенджеру. Мы исполняем решение суда». Сообщается, что под блокировку попали подсети Amazon 52.58.0.0/15, 18.196.0.0/15, 18.194.0.0/15 и 35.156.0.0/14. Позже в реестр внесли ещё подсеть 18.184.0.0/15.

Кроме Amazon, в выгрузку реестра запрещённых сайтов для провайдеров попала подсеть Google 35.192.0.0/12, содержащая более миллиона IP-адресов Google. Таким образом, за один день 16 апреля 2018 года Роскомнадзор заблокировал в России примерно 0,04% всех IP-адресов адресного пространства IPv4 (2³² адресов).

+100

650

alexcccp Apr 28 2022 at 02:15

Распространить сертификат в кратчайшие сроки среди станций Windows любой ценой

5 min

11K

System administration*

В начале пандемии ’20 появилась задача - распространить корневой сертификат среди домашних персональных компьютеров, так как большое количество сотрудников стали работать по домам.

Сейчас прилетела задача распространить сертификат Минцифры.

В домене все понятно, добавил сертификат в политики GPO и поехали.

А как быть с локальными (домашними) станциями Windows?

TilekSamiev May 30 2023 at 17:01

Как Google Docs революционизировал работу с текстом

Easy

7 min

8.4K

Timeweb Cloud corporate blogGoogle ChromeCloud services*History of IT

Retrospective

17 лет назад, если вы набирали текст на компьютере, скорее всего, вы делали это в Microsoft Word. Часть чрезвычайно успешного пакета Microsoft Office, Word де-факто был хорошим вариантом программы для составления текста, будь вы автором, офисным работником или студентом. В 2006-м году Google официально запустил бета-версию Google Docs. С тех пор Google Docs уже давно доказал свою профпригодность и стал стандартным инструментом для работы с текстом. Поэтому статья об этом текстовом редакторе в 2023-м году может показаться запоздавшей или ненужной. Но хотелось бы вспомнить, как было до Google Docs и стало после. Легко определить его нынешнее место, хотя гораздо интереснее оценить его первоначальное влияние. Программное обеспечение, которое преобразовало область текстовых процессоров, исключив функции, а не добавив их.

Статус Google Docs сегодня подобен статусу учёного с большим стажем работы, чьи ранние идеи привели к кардинальным переменам в своей области, и который после этого ушёл в бессрочный творческий отпуск. Однако даже после того, как его амбиции пошли на убыль, он остался актуальным и влиятельным. Тем, кого новые поколения копируют и пытаются превзойти.

Читать дальше →

+25

pestich Oct 20 2023 at 14:41

Классификация текстов в spaCy: пошаговая инструкция

Easy

5 min

3.7K

Python*Machine learning*

From sandbox

Вы узнаете, как реализовать классификатор текстов при помощи библиотеки spaCy, а также несколько полезных лайфхаков, которые помогут ускорить обработку данных.

lol_wat Jun 23 2015 at 10:37

Что нужно знать о работе с текстом превью email-писем

6 min

19K

Pechkin.com corporate blogEmail layout*

Translation

Вы потратили много времени на оптимизацию своих email-писем, и уверены что сообщения почтовой рассылки хорошо написаны, приятно выглядят и, что еще важнее, нормально отображаются в большинстве почтовых клиентов. Проблема в том, что даже самые идеальные письма с большой долей вероятности никогда не будут даже открыты получателем. Они просто попадут в папку «Входящие», где уже и так похоронено огромное количество текста.

Папка входящи сообщений — это первое, что видит пользователь почтовой программы, но это также часто и последний фактор, рассматриваемый при принятии решения о том, открывать ли письмо. Все почтовые клиенты в обязательном порядке показывают, от кого пришло письмо (поле “from”) и тему сообщения. Некоторые программы также показывают небольшой текст превью.

Оптимизация этого текста может приносить отличные результаты и значительно увеличивать процент открытых писем (иногда, до 45%).

Читать дальше →

+13

Rembish Oct 18 2009 at 21:21

Текст любой ценой: WCBFF и DOC

9 min

28K

PHP*

Несколько позже, чем хотелось, но продолжаем наш разговор о получении текста из разных форматов данных. Мы с вами уже познакомились с тем, как работать с изначально XML-base файлами (docx и odt), прочитали текст из pdf, преобразовали содержимое rtf в plain-text. Теперь перейдём в вкусненькому да сладенькому — формату DOC.

Читать дальше →

+62

Rembish Nov 22 2009 at 19:11

Текст любой ценой: PPT

3 min

PHP*

Некоторое время назад мы с вами обсуждали получение чистого текста из различных форматов данных: будь то PDF или DOC. В одном из обсуждений был высказано предположение, что при парсинге презентаций PowerPoint я заработаю геморрой или другую страшную болезнь мягкой точки. Что ж, волей судеб мне пришлось доставать текст и из этого «сладенького» формата. Скажу честно, геморрой заработать не удалось, а вот класс для парсинга презентаций вышел.

Читать дальше →

+38

Rembish Dec 1 2010 at 00:14

Текст любой ценой: Miette

3 min

2.7K

Python*

Да, вы не ошиблись, и это не дежавю. Вы наверняка когда-то (если завсегдатай) видели этот топик. С тех пор прошло много времени, а мне продолжают ходить письма с вопросами и просьбами о совете на тему чтения текстовой информации из бинарных форматов данных. А это значит, что тема до сих пор актуальна, интересна для программирующей общественности.

За этот год (а ведь и вправду прошло больше года) я поменял место работы и занимаюсь совершенно другими вещами и давно уже не программирую (много не программирую, если быть точным) на PHP. Новый проект обязал меня совершенствоваться в python'е (и ощутить его силу), поэтому однажды воскресным вечером было решено переписать и, главное, улучшить некоторые из своих библиотек для чтения текста. Сегодня я представлю на суд публики молодой opensource-проект Miette («вкусняшка», если переводить с французского), который призван (в каком-никаком будущем) читать файлы пакета Microsoft Office.

Основной задачей Мьетт будет в первую очередь чтение чистого текста из офисных форматов, но в этот раз мне хотелось бы пойти дальше и сотворить невозможное: заставить парсер читать форматирование (хотя бы минимальное). Задача сложная, но вполне посильная, если будет время по вечерам и интерес (а возможно посильная помощь в виде тестирование и совместной разработки) со стороны страждущего народонаселения. Но это всего лишь планы и, так сказать, хобби.

Естественно python во многом отличается от PHP и, на мой взгляд, имеет несколько больший функционал, поэтому и принцип построения библиотек в проекте несколько другой, нежели старая «поделка» на PHP. В данном случае было решено запретить себе, как разработчику и заказчику в одном лице, загружать какие-либо большие блоки в память. Мьетт читает данные постепенно, по требованию, как это делает сам Word. Это делает его легковесным и нетребовательным к оперативной памяти. В будущем, я постараюсь пройти исходные profiler'ем и найти узкие горлышка, которые стоит оптимизировать дальше.

Идём дальше?

Читать дальше →

+35

Nokta_strigo Jan 11 2021 at 08:27

Препарируем Compound File Binary format (CFB), или начинаем парсить DOC

5 min

6.8K

Information Security*CTF*

Compound File – это довольно сложный универсальный бинарный формат файлов, лежащий в основе форматов офисных документов до MS Office 2007 (doc, xls, ppt, msg, …), отчасти MS Office 2007+ (например vbaProject.bin внутри xlsm) и других.

Под катом краткое описание как Compound File устроен внутри, которое, надеюсь, будет полезно как ликбез и поможет читателю лучше понимать что делают утилиты или про что пишут в статьях про CFB файлы.

Читать дальше →

+13

Rembish Sep 12 2009 at 13:33

Текст любой ценой: DOCX и ODT

4 min

62K

PHP*

Недавно возникла задача получения чистого текста из различных форматов документооборота — будь-то документы Microsoft Word или PDF. Задача была выполнена даже с чуть более широким списком возможных входных данных. Итак, этой статьёй я открываю список публикаций о чтении текста из следующих типов файлов: DOC, DOCX, RTF, ODT и PDF — с помощью PHP без использования сторонних утилит.

Читать дальше →

+83

Rembish Sep 14 2009 at 14:35

Текст любой ценой: PDF

12 min

89K

PHP*

Продолжаем разбирать текстовые форматы на предмет получения текста. Итак, обещанный ранее PDF.

С portable document format'ом не всё так просто, как DOCX или ODT, что мы рассматривали в прошлый раз, но всё же это всё ещё изначально текстовый, а не бинарный формат. Вы удивлены? Тогда давайте посмотрим на то, что там внутри. Дальше действительно много текста.

Читать дальше →

+73

DoubleThinker Jul 5 2019 at 12:07

Терпение и труд весь текст извлекут

10 min

7.9K

«Антиплагиат» corporate blog.NET*Algorithms*PDFAPI*

Во время учебной сессии (май-июнь и декабрь-январь) пользователи просят нас проверить на наличие заимствований до 500 документов каждую минуту. Документы приходят в файлах различных форматов, сложность работы с каждым из которых различна. Для проверки документа на заимствования нам сперва необходимо извлечь из файла его текст, а заодно и разобраться с форматированием. Задача — реализовать качественное извлечение полутысячи текстов с форматированием в минуту, при этом падать нечасто (а лучше не падать совсем), потреблять мало ресурсов и не платить за разработку и эксплуатацию конечного детища половину галактического бюджета.

Да-да, мы, конечно, знаем, что из трех вещей — быстро, дешево и качественно — нужно выбрать любые две. Но самое противное, что в нашем случае мы ничего не можем вычеркнуть. Вопрос в том, как хорошо у нас это получилось...

_{Источник изображения: Википедия}

Читать полностью

+19

Rembish Nov 29 2009 at 18:04

Текст любой ценой: PPT. Дубль второй

1 min

1.4K

PHP*

Недавно я анонсировал свой вариант чтения презентаций PowerPoint с помощью чистого PHP. Тогда я с сожалением отметил, что класс сырой и нуждается в доработке. Долго ли, коротко ли, но ошибки были найдены — теперь файлы читаются заметно лучше, без всякой грязи. Надеюсь, вам пригодятся мои наработки.

Читать дальше →

+36

Rembish Sep 19 2009 at 16:24

Текст любой ценой: RTF

14 min

86K

PHP*

Что ж продолжим наши изыскания на предмет получения текста из различных форматов данных. Не так давно мы с вами научились вытаскивать текст из zipped-xml-based файлов (odt и docx), а также, в начале этой недели, из pdf. Сегодня мы продолжим с обещанным rtf.

Rich Text Format (он же rtf), ~~вы могли бы подумать, достаточно забытый, хотя и~~ не очень сложный формат представления текстовых данных. Что ж, относительно несложный для получения текста, но за свою историю: от своей первой версии до текущей 1.9.1 — он приобрёл под 300 страниц официально документации и огромное количество надстроек, которые в большей степени нам будут мешать при получении plain text'а. Попробуем их обойти…

Читать дальше →

+53

serhit May 4 2022 at 17:59

Преобразование офисных файлов в текст

4 min

Python*

Представление документа в виде простого текста понадобится для анализа его содержимого: индексирования и поиска, классификации, предварительной проверки.

В нашем случае, стояла задача предварительного анализа (скоринга) документов по их содержимому. Верхнеуровневый процесс обработки документов построен с использованием MS Power Automate, поэтому конвертор нужно было реализовать в виде некоего облачного сервиса, доступного через HTTP.

В результате получился очень компактный сервис экстракции текста из офисных файлов, который успешно работает у нас уже несколько месяцев. Под катом - краткое описание сервиса, ссылка на репозиторий и другие полезные статьи по теме.

AKlimenkov Dec 24 2022 at 14:18

Манулы и мануалы. Как искоренить опечатки в технических текстах

6 min

5.3K

Bercut corporate blogIT TerminologyGTD*Reading roomTechnical Writing*

Авторов технических текстов на каждом шагу подстерегают ловушки: орфографические омуты, пунктуационные овраги, горы фактических неточностей. Все эти препятствия, хоть и грозные, но вполне знакомые. У тех, кто много пишет, уже есть известные тропки, перевалы и мостики. По ним авторы успешно обходят все неприятности на пути к заветной цели: качественному и полезному тексту.

Но есть и ещё один тип ошибок: мелких, незначительных, вездесущих. Они как микроскопические пылинки проникают в каждый текст. Автор может часами выверять фактические данные и полировать до сияющего блеска формулировки. Но в тончайший прецизионный часовой механизм документа всё равно проникнут вредные песчинки. Имя им — описки.

Можно ли как-то автоматизировать процесс отлова таких мелких назойливых «багов», чтобы раз и навсегда забыть о них и сосредоточиться на более важных вещах? В этой статье я хочу поделиться с вами несколькими способами борьбы с такими «вредителями», которые сам применяю на практике. А заодно перечислю самые забавные ляпы, которые я вылавливал в своих текстах.

+24

beliakov Mar 6 2023 at 07:45

Docs as Code для художественной литературы. Делаем творческий сайт ребенка с помощью MkDocs

Easy

13 min

7.6K

Open source*GitHub*DIYTechnical Writing*

Case

Docs as Сode — подход к работе с текстами, подразумевающий написание текста как кода:

в простом текстовом редакторе или IDE;
с использованием системы контроля версий;
с CI / CD / Code Review.

В настоящее время Docs as Code широко применяется при работе с технической документацией, давая техническим писателям и проектным командам массу удобств и преимуществ.

Но что если пойти дальше, попробовать такой подход не с техническими, а с художественными текстами? Что если автор — не технарь и не айтишник? Просто юный начинающий писатель, который пробует писать прозу и стихи ручкой на бумаге, и надеется познакомить широкую публику со своим творчеством?

В этой статье я расскажу о таком эксперименте (забегая вперед, удачном). Моей дочери 11 лет, она пишет сказки, стихи и рассказы. Чтобы поддержать ее увлечение, я помог ей создать литературный сайт, используя подход Docs as Code. Она успешно освоила основы Markdown и Git. Сейчас она самостоятельно публикует новые произведения и обновляет новости на своем сайте https://lib-beliakova.github.io/.

Читать дальше →

+44

myoffice_ru Apr 6 2022 at 13:45

Изучаем «МойОфис Документы». Мобильное приложение для работы с текстами и таблицами

6 min

7.6K

МойОфис corporate blogStart-up developmentProduct Management*SoftwareIT-companies

Год назад стартовала программа предустановки отечественного ПО. Согласно нашему совместному исследованию с BCGroup, 57% опрошенных лояльны к программе предустановки, причем по сравнению с прошлым годом этот показатель вырос на 13%. Из опрошенных 3000 человек 35% заявили, что благодаря программе они начали активнее использовать отечественное ПО, а 12% отметили, что всегда предпочитали российские решения.

Перечень приложений, предустанавливаемых на гаджетах в России, включает в себя два продукта МойОфис — отечественного разработчика софта для работы с документами и коммуникаций. Их частные пользователи скачали уже более 11 млн раз. О настольных редакторах «МойОфис Стандартный. Домашняя версия» мы уже рассказали в этой статье. Сегодня же на практике рассмотрим «МойОфис Документы». Приложение позволяет открывать, редактировать, создавать текстовые файлы и таблицы на всех современных смартфонах и планшетах. Подробнее читайте под катом.

+19

Durham Sep 20 2022 at 23:58

Определение типа личности по тексту (на замену закрытому IBM Watson Personality Insights)

16 min

5.3K

MeanoTek corporate blogMachine learning*Artificial IntelligenceBrainNatural Language Processing*

Некоторое время назад к нам обратился заказчик с не совсем обычной задачей — воспроизвести сервис IBM Watson Personality Insights, который анализировал текст, написанный человеком и определял по нему ряд личностных характеристик. Задача возникла по причине того, что бизнес заказчика основывался на этом сервисе, в то время как IBM объявила, что сервис вскоре станет недоступен. В этой статье расскажем, что делал этот сервис и чем закончилась задача воспроизведения его функционала.

Читать дальше →

alex_baran Mar 14 2014 at 13:43

Google Docs Add-on. Расширяем возможности редактора Google Docs

8 min

36K

Website development*JavaScript*

From sandbox

На днях Google анонсировал выход новой платформы, позволяющей разработчикам создавать приложения, работающие внутри Google Docs и расширяющие базовый функционал Google Docs редактора.
Разберемся что это, как это работает и напишем небольшое приложение которое позволит нам переводить текст документа не выходя из Google Docs.

Читать дальше →

+26

2 3 ...

49 50