Elasticsearch 数据到处到本地

直接上代码吧

# -*- coding: utf-8 -*-

from elasticsearch import Elasticsearch


# 日志的配置环境
import platform
import logging.handlers
sys_platform = platform.system()
if sys_platform == "Windows":
    LOG_FILE_check = './app_cic.txt'
else:
    LOG_FILE_check = '/cic1.log'
handler = logging.handlers.RotatingFileHandler(LOG_FILE_check, maxBytes=1200 * 1024 * 1024,backupCount=10)  # 实例化handler  200M 最多十个文件
fmt = '\n' + '%(message)s'
formatter = logging.Formatter(fmt)  # 实例化formatter
handler.setFormatter(formatter)  # 为handler添加formatter
logger = logging.getLogger('check')  # 获取名为tst的logger
logger.addHandler(handler)  # 为logger添加handler
logger.setLevel(logging.DEBUG)


# es = Elasticsearch()
es = Elasticsearch(["20.0.0.11:9200"], sniff_on_start=True, sniff_on_connection_fail=True,sniff_timeout=60)

import time

query_json = {
    "query":{
        "terms":{
            "site":[
                "百度搜索"
            ]
        }

    }
}



page_num = 1000  # 每次获取数据
query = es.search(index='guoyan_index_v1', body=query_json, scroll='5m', size=page_num)
results = query['hits']['hits']  # es查询出的结果第一页
total = query['hits']['total']  # es查询出的结果总量
scroll_id = query['_scroll_id']  # 游标用于输出es查询出的所有结果
every_num = int(total/page_num)  #
# print(results)
print("total",total)
print("scroll_id",scroll_id)
print("every_num",every_num)

alist = []
end_data_list = []
print("----------",int(total/page_num)+1)
for i in range(0, every_num):
# for i in range(100, 1000):
    print("正在读取的位置是：",i)
    results_list = es.scroll(scroll_id=scroll_id, scroll='5m')['hits']['hits']
    for key in results_list:
        try:
            source = key['_source']["source"]
            other6 = key['_source']["other6"]
            result_str = other6 + " " + source
            end_data_list.append(result_str)
        except:
            pass
end_data_list = list(set(end_data_list))
print("去重以后的数据是条数是：",len(end_data_list))
for end_data in end_data_list:
    logger.info(end_data)

机器学习（5）——代价函数误差分析

代价函数简介代价函数(Cost Function),通常

Laravel 框架资源嵌套.浅嵌套.自定义&表单伪造.CSRF 保护 ④

![请添加图片描述](https://img-blog.csdnimg.cn/154d035aa4db42df99f3b01fbf287e46.gif#pic_center) @作者

【区块链杂谈】区块链的前世今生（今生）

转向技术驱动在前面，我们回顾了区块链技术自诞生到野蛮生长的三个阶段，自某些不可抗因素主动干预之后，整个市场因为比特币价格的腰斩而萎靡不振，热衷于赚取热钱快钱的投机者逐渐退出，只留下了一片狼藉。在这样的背景下，区块链的发展

智能清洁洗地机哪个牌子的好、洗地机到底实不实用

总是有朋友问到作为目前最火爆的智能清洁家电洗地机，它的真实使用效果到底好不好。要我说这东西见仁见智，真实效果还得是个人使用感受过才知道是牛是马。那洗地机到底是不是智商税呢？到底有没有必要入手洗地机？让我们浅略的来认识一下什么是洗地机？一、洗地机的工作原理

Linux设置远程调试ssh允许root登录

Linux设置远程调试ssh允许root登录默认情况安装完SSH服务并开启，root是不允许登录的，所以以下步骤必须完成 1、已经安装

Dubbo之Wrapper源码解析

功能概述为了减少反射的调用，Dubbo会为每个服务提供者的实现生成一个Wrapper类，通过Wrapper类去调用真正的接口实现类。功能分析

echarts 柱状图对个别柱条的颜色自定义。

CSS3 边框，文本，渐变属性（二）

2 CSS3 新增边框属性 2.1 边框圆角 CSS 属性名含义值

RTI1.3时间管理支持的两种模式

RTI 1.3目前支持两种模式，一种是轮询模式，一种是异步模式，无论在那种模式下LRC都要做大量工作，比如和其他的联邦成员的LRC交换信息，完成这些工作需要一定时间，tick()函数就是为了给RTI提供这个时间。轮询模式：联邦成员和RTI共享单独一个线程，只有当联邦成员调

JavaScript =＞省市区将一个没有层级的扁平对象,转换为树形结构({value, children})结构的对象

前端开发肯定要用到级联省市区级联选择器的

Elasticsearch 数据 到处到本地

Elasticsearch 数据到处到本地